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了 这 个 功能 ， 那 就 开 枪 把 他 打 死 。 这 比 学 习 新 特性 要 容易 些 ， 然 后 过 不 
了 多 入， 那些 活 下 来 的 程序 员 就 会 开始 用 0.9.6 版 的 Python, 而 且 他 们 
只 需要 使 用 这 个 版 本 中 易于 理解 的 那 一 小 部 分 就 好 了 R) 。 


Tim Peters 


传奇 的 核心 开发 者 , “Python 之 禅 ” 作 者 


ig 


comp.lang.python Usenet 小 组 的 留言 ，2002 Ẹ 12 H 23 H, “Acrimony in c.l.p” ° 


Python 官方 教程 的 开头 是 这 样 写 的 : “Python 是 一 门 既 容易 上 手 义 强大 的 编 
程 语言 。” 这 人 句 话 本 身 并 无 大 碍 ， 但 需要 注意 的 是 ， 正 因为 CBRE AE 
用 ， 所 以 很 多 Python 程序 员 只 用 到 了 其 强大 功能 的 一 小 部 分 


只 需要 儿 个 小 时 ， 经 验 丰 富 的 程序 员 就 能 学 会 用 Python 写 出 实用 的 程序 。 然 
而 随 着 这 最 初 高 产 的 几 个 小 时 变 成 数 周 甚 至 数 月 ， 在 那些 先 人 为 主 的 编程 语 
言 的 影响 下 ， 开 发 者 们 会 慢 慢 地 写 出 带 着 “ 口 首 ”的 Python 代码 。 即 便 Python 
是 你 的 初恋 ， 也 难 逃 此 命运 。 因 为 在 学 校 里 ， 抑 或 是 那些 入 门 书 上 ， 教 授 者 
往往 会 有 意 避 免 只 跟 语言 本 身 相 关 的 特性 。 


另外 ， 问 那些 已 在 其 他 语言 领域 里 有 了 丰富 经 验 的 程序 员 介 绍 Python 的 时 
ÎR, 我 还 发 现 了 一 个 问题 : 人 们 总 是 倾 回 于 寻求 自己 熟悉 的 东西 。 受 到 其 他 
语言 的 影响 ， 你 大 概 能 猜 到 Python 会 支持 正则 表达 式 ， 然 后 就 会 去 查阅 文 
档 。 但 是 如 果 你 从 来 没 见 过 元 组 拆 包 (tuple unpacking) ， 也 没 听 过 摘 述 符 
(descriptor) 这 个 概念 ， 那 么 估计 你 也 不 会 特地 去 搜索 它们 ， 然后 就 永远 失 
去 了 使 用 这 些 Python 独 有 的 特性 的 机 会 。 这 也 是 本 书 试图 解决 的 一 个 问题 。 


这 本 书 并 不 是 一 本 完备 的 Python 使 用 手册 ， 而 是 会 强调 Python 作为 编程 语 
言 独 有 的 特性 ， EST TEBE eA Python 才 具 备 的 ， 或 者 是 在 其 他 大 众 语 
言 里 很 少见 的 。Python 语言 核心 以 及 它 的 一 些 库 会 是 本 书 的 重点 。 尽 管 
Python 的 包 索 引 现在 已 经 有 6 万 多 个 库 了 ， 而 且 其 中 很 多 都 异常 实用 ,但 是 
我 几乎 不 会 提 人 到 Python 标准 库 以 外 的 包 和 


目标 读者 


本 书 的 目标 读者 是 那些 正在 使 用 Python， 又 想 熟 悉 Python 3 的 程序 员 。 如 果 
UK Python 2， 但 是 想 迁 移 到 Python 3.4 或 者 更 新 的 版 本 ， 也 没 问 题 。 在 写 
这 本 书 的 时 候 ， 大 多 数 专业 Python 程序 员 用 的 还 是 Python 2， 因 此 如 果 书 中 
出 现 来 自 Python 3 的 特性 ， 读 者 可 能 会 感到 陌生 ， 我 也 会 特别 地 做 出 解释 。 


然而 ， 本 书 的 主要 目的 是 为 了 充分 地 展现 Python 3.4 的 魅力 ， 因 此 我 不 会 一 
字 一 句 地 说 明 如 何 让 本 书 的 代码 在 旧版 本 里 正常 运行 。 本 书 中 的 大 多 数 例子 
稍 做 修改 (甚至 不 用 修改 ) 就 可 以 在 Python 2.7 里 面 跑 起 来 ， 但 是 有 些 例 
F., WREKE TRA, DamkK RES ° 


话 虽 如 此 ， 我 还 是 认为 ， 即 便 你 无 法 从 Python 2.7 里 脱身 ， 这 本 书 也 会 对 你 
很 有 帮助 ， 因 为 Pyhon 语言 的 核心 概念 是 不 会 变 的 。Python 3 也 不 是 一 门 全 
新 的 语言 ， 大 多 数 的 改动 伦 一 下 午 大 概 就 能 适应 ， 官 方 文档 里 “Python 3.0 的 
新 特性 ”一 节 束 是 很 好 的 切入 点 。 固 然 ， 自 2009 年 发 布 以 来 ，Python 3.0 也 

， 但 是 这 些 变化 比 起 Python 3.0 和 Python 2.0 之 间 的 区 别 ， 并 没有 那 

人 o 


如 有 果 你 尚 不 清楚 目 己 对 Python 的 熟悉 程度 能 否 跟 得 上 本 书 的 内 容 ， 建 议 你 回 
LEA Python 的 官方 教程 。 注 意 ， 除 非 是 跟 Python 3 的 新 特性 有 关 ， 教 程 
里 的 其 他 内 容 本 书 不 会 重复 。 


非 目标 读者 


如 果 你 才刚 刚 开 始 学 Python， 本 书 的 内 容 可 能 会 显得 有 些 “ 超 纲 ”。 比 难 懂 更 
糟 的 是 ， 如 果 在 学 习 Python 的 过 程 中 过 早 接触 本 书 的 内 容 ， 你 可 能 会 误 以 为 
所 有 的 Python 代码 都 应 该 利用 特殊 方法 和 元 编程 (metaprogramming) 技 

巧 。 我 们 知道 ， 不 成 熟 的 抽象 和 过 早 的 优化 一 样 ， 都 会 坏事 。 


本 书 的 结构 


如 有 果 你 是 本 书 的 目标 读者 ， 那 你 应 该 可 以 从 本 书 的 任意 一 章 开 始 阅读 ， 但 是 
如 果 按 照 我 写作 时 的 构思 来 的 话 ， 本 书 一 共 分 为 六 个 独立 的 部 分 ， 每 个 部 分 
内 的 章 市 最 好 按照 顺序 来 读 。 


在 介绍 让 你 自己 实现 某 些 功 能 的 方法 之 前 ， 我 通常 会 先 把 现成 可 用 的 工具 讲 
清楚 。 比 如 说 第 二 部 分 的 第 2 章 涉及 现成 的 序列 类 型 (sequence type) ， 包 
括 collections.deque 这 种 不 太 受 关注 的 序列 类 型 。 一 直到 第 四 部 分 ， 

我 们 才 会 看 看 如 何 从 抽象 基 类 (abstract base class, ABC) 中 获 利 ， 抽 和 象 基 
类 则 被 封装 在 collections.abc 这 个 包 里 。 如 果 想 创建 自己 的 ABC， 你 


可 能 得 看 到 第 四 部 分 的 最 后 一 些 内 容 才 行 ， 因 为 我 一 直觉 得 ， 如 采 没 有 熟练 
使 用 ABC 的 经 验 ， 贸 然 去 实现 一 套 上 自己 的 东西 是 不 合适 的 。 


这 样 做 有 几 个 好 处 。 第 一 ， 知 道 有 什么 现成 的 工具 可 用 ， 能 避免 重新 发 明 轮 
子 。 上 毕竟 我 们 使 用 现 有 集合 类 型 (collection type) 的 概率 要 远大 于 自己 动手 
写 一 套 新 的 。 第 二 ， 这 样 一 来 ， 在 讨论 如 何 写 新 类 型 之 前 ， 我 们 能 够 有 更 多 
的 机 会 来 了 解 这 些 现成 类 的 高 级 用 法 。 第 三 ， 比 起 从 零 开 始 构建 一 个 ABC， 
继承 已 有 的 ABC 库 应 该 会 简单 一 些 。 最 后 ， 我 认为 在 看 过 一 些 实际 的 案例 
之 后 ， 理 解 抽 象 会 更 轻松 。 


当然 ， 这 样 也 会 带 来 一 些 不 便 之 处 ， 比 如 书 里 的 向 前 引用 就 会 分 散在 各 个 不 
Rc i 0 


下 面 是 本 书 每 一 部 分 的 主题 。 
第 一 部 分 


第 一 部 分 只 有 单独 的 一 章 ， 讲 解 的 是 Python 的 数据 模型 (data 
model) ， 以 及 如 何 为 了 保证 行为 一 致 性 而 使 用 特殊 方法 【比如 
__repr__) ， 毕 竟 Python 的 一 致 性 是 出 了 名 的 。 其 实 整 本 书 几 乎 都 是 在 讲 
解 Python 的 数据 模型 ， 第 1 章 算是 一 个 概 蜗 。 


第 二 部 分 


第 二 部 分 包含 了 各 种 集合 类 型 : 序列 (sequence) > HRA (mapping) 和 
集合 (set) ， 另 外 还 提 及 了 字符 串 (str) 和 字 节 序列 (bytes) 的 区 分 。 
说 起 来 ， 最 后 这 一 点 也 是 让 亲 者 (Python 3 HÈ) 快 , 仇 者 (Python2 用 
户 ) 痛 的 一 个 关键 ， 因 为 这 个 区 分 致使 Python 2 代码 迁移 到 Python 3 的 难度 
陡 增 。 第 二 部 分 的 目标 是 帮助 读者 回忆 起 Python 内 置 的 类 库 ， 顺 带 解 释 这 些 
类 库 的 一 些 不 太 直 观 的 地 方 。 具 体 的 例子 有 Python 3 如 何在 我 们 观察 不 到 的 
地 方 对 dict 的 键 重新 排序 ， 或 者 是 排序 有 区 域 (locale) 依赖 的 字符 串 时 的 
注意 事项 。 为 了 达到 本 部 分 的 目标 ， 有 些 地 方 的 讲解 会 比较 大 而 全 ， 像 序列 
类 型 和 映射 类 型 的 变种 就 是 这 样 ， 有 时 则 会 写 得 很 深入 ， 比 方 说 我 会 对 
dict 和 set 底层 的 散 列 表 进 行 深层 次 的 讨论 。 


第 三 部 分 
如 何 把 函数 作为 一 等 对 象 (first-class object) 来 使 用 。 第 三 部 分 首先 会 


解释 前 面 这 人 句 话 是 什么 意思 ， 然 后 话题 延伸 到 这 个 概念 对 那些 被 广泛 使 用 的 
设计 模型 的 影响 ， 最 后 读者 会 看 到 如 何 利用 闭 包 (closure) 的 概念 来 实现 画 


数 装 饰 器 (function decorator) 。 这 一 部 分 的 话题 还 包括 Python 的 这 些 基 本 
概念 ， 可 调用 (callable) 、 画 数 属 性 (function attribute) 、 内 省 

(introspection) 、 参 数 注 解 (parameter annotation) 和 Python 3 里 新 出 现 的 
nonlocal 声明 。 


第 四 部 分 


到 了 这 里 ， 书 的 重点 转移 到 了 类 的 构建 上 面 。 虽 然 在 第 二 部 分 里 的 例子 
里 就 有 类 声明 (class declaration) 的 出 现 ， 但 是 第 四 部 分 会 呈现 更 多 的 类 。 
和 任何 面向 对 象 语言 一 样 ，Python 还 有 些 自己 的 特性 ， 这 些 特性 可 能 并 不 会 
出 现在 你 我 学 习 基 于 类 的 编程 的 语言 中 。 这 一 部 分 的 章节 解释 了 引用 

(reference) 的 原理 、“ 可 变性 ”的 概念 、 实 例 的 生命 周期 、 如 何 构建 自 定义 
ooo ABC、 多 重 继承 该 怎么 理 顺 、 什 么 时 候 应 该 使 用 操作 符 重 载 及 
其 方法 。 


第 五 部 分 


Python 中 有 些 结构 和 库 不 再 满足 于 诸如 条 件 判 断 、 循 环 和 子 程序 

(subroutine) 之 类 的 顺序 控制 流程 ， 第 五 部 分 的 笔墨 会 集中 在 这 些 构造 和 库 
上 。 我 们 会 从 生成 器 (generator) 起 步 ， 然 后 话题 会 转移 到 上 下 文 管理 器 
(context manager) 和 协 程 (coroutine) ， 其 中 会 涵盖 新 增 的 功能 强大 但 又 
不 容易 理解 的 yield from 语法 。 这 一 部 分 以 并 发 性 和 面向 事件 的 IO 来 结 
尾 ， 其 中 跟 并 发 性 相关 的 是 collections .futures 这 个 很 新 的 包 ， 它 借 
助 futures 包 把 线程 和 进程 的 概念 给 封装 了 起 来 :而 跟 面 向 事件 IO 相关 
的 则 是 asyncio， 它 的 背后 是 基于 协 程 和 yield from 的 futures 包 。 


第 六 部 分 


第 六 部 分 的 开头 会 讲 到 如 何 动态 创建 带 属性 的 类 ， 用 以 处 理 诸如 ISON 
这 类 半 结 构 化 的 数据 。 然 后 会 从 大 家 已 经 熟悉 的 特性 (property) 机 制 入 
手 ， 用 描述 符 从 底层 来 解释 Python 对 象 属性 的 存 取 。 同 时 ， 画 数 、 方 法 和 描 
述 符 的 关系 也 会 被 梳理 一 遍 。 第 六 部 分 会 从 头 至 尾 地 实现 一 个 字段 验证 器 ， 
在 这 个 过 程 中 我 们 会 遇 到 一 些微 妙 的 问题 ， 然 后 在 最 后 一 章 中 就 自然 引出 像 
类 装饰 器 (class decorator) 和 元 类 (metaclass) 这 些 高 级 的 概念 。 


以 实践 为 基础 


一 般 情况 下 ， 我 们 会 用 Python 的 交互 式 控制 台 来 探索 各 种 库 和 语言 本 身 。 有 
些 读者 可 能 对 静态 的 需要 编译 的 语言 更 熟悉 ， 但 是 这 些 语言 可 能 不 会 提供 


REPL (read-eval-print loop， 读 取 、 求 值 、 输 出 的 循环 ) 。 在 这 里 我 想 强调 
一 下 Python 交互 式 控 制 台 ， 也 就 是 REPL， 作 为 一 个 学 习 工 具 的 重要 性 。 


doctest Python 的 一 个 标准 库 ， 做 测试 用 的 。 这 个 库 通 过 模拟 控制 台 对 话 来 
检验 表达 式 求 值 是 否 正确 ， 而 本 书 中 几乎 所 有 代码 的 测试 ， 包 括 那 些 在 控制 
台 里 的 输出 ， 都 是 通过 这 个 库 来 进行 的 。doctest 看 起 来 就 像 是 Python 交互 
式 控制 台 的 剧本 ， 你 甚至 都 不 需要 了 解 它 背后 的 运行 机 制 就 可 以 直接 用 它 来 
试验 书 里 的 例子 。 


我 有 时 为 了 事先 说 明 一 段 代码 的 目的 ， 会 在 展示 代码 之 前 先 摆 出 相应 的 
doctest 文本 。 这 是 因为 我 认为 ， 在 考虑 如 何 实 现 一 个 功能 之 前 ， 先 严格 地 列 
出 这 个 功能 能 做 什么 ， 这 能 帮助 我 们 在 编程 时 把 精力 花 在 该 花 的 地 方 。 测 试 
驱动 开发 (TDD) 的 精髓 就 是 先 写 测 试 ， 我 后 来 发 现 这 种 精神 在 教学 中 也 是 
大 有 益处 的 。 如 果 你 对 doctest 还 不 熟悉 ， 花 点 时 间 阅 读 它 的 文档 。 结 合 本 书 
的 源码 ， 你 可 以 在 操作 系统 的 控制 台 里 键入 python3 -m doctest 
example_script. py 来 验证 书 中 几乎 所 有 代码 的 正确 性 。 


硬件 


书 中 有 一 些 简 单 的 时 间 和 基准 测试 ， 跑 这 些 测试 的 时 候 我 用 的 是 写 书 时 的 两 
台 笔 记 本 电脑 。 一 台 是 产 于 2011 年 的 MacBook Pro 13 英寸 笔记 本 ， 配 置 是 
2.7 GHz 的 英特尔 Core i7 处 理 器 、8GB 的 内 存 和 机 械 硬 盘 ; 另 一 台 是 产 于 
2014 年 的 MacBook Air 13 英寸 笔记 本 ， 配 置 是 1.4 GHz 的 英特尔 Core i5 处 
理 器 、4GB 内 存 和 一 个 固态 硬盘 。MacBook Air 的 处 理 器 虽然 慢 一 些 ， 内 存 
也 没有 男 一 台 多 ,但 是 它 的 内 存 快 一 些 (1600 MHz, MacBook Pro 13 英寸 
WW 1333 MHz) ， 另 外 它 的 硬盘 也 更 快 ， 因 此 在 日 常 使 用 中 我 并 没有 感觉 
到 两 台 笔 记 本 有 速度 上 的 差异 。 


杂谈 : 个 人 的 一 点 看 法 


从 1998 年 起 ， 我 一 直 在 使 用 Python， 也 做 Python 教学 ， 另 外 还 一 直 在 为 它 
辩护 。 我 一 直 都 很 享受 这 个 过 程 ， 尤 其 是 喜欢 研究 Python 同 其 他 语言 在 设计 
和 理论 上 的 不 同 。 因 此 在 有 些 章 市 的 最 后 ， 我 会 加 上 一 点 自己 对 Python 以 及 
其 他 语言 的 看 法 ， 我 把 这 部 分 叫 作 “杂谈 ”。 如 果 你 对 这 些 东 西 不 感 兴趣 ， 跳 
过 即 可 ， 因 为 这 些 并 不 是 必 读 的 。 


Python 术语 表 


我 希望 这 本 书 不 仅仅 是 关于 Python 的 ， 也 是 关于 Python 的 文化 的 。 在 过 去 
20 多 年 的 交流 中 ，Python 社区 形成 了 它 独 有 的 行 话 和 缩写 。 本 书 的 最 后 有 一 
‘Python 术语 表 ”， 里 面 列 出 了 在 Python 爱好 者 中 具有 特别 意义 的 词 


Python 版 本 表 

本 书 所 有 的 代码 都 在 Python 3.4 里 测试 过 ， 而 且 是 应 用 最 广 的 用 C 实现 的 
CPython 3.4。 只 有 一 个 例外 ,在 13.4 节 中 的 “Python 3.5 新 引入 的 中 级 运算 符 
@” 附 注 栏 里 ， 我 提 到 了 新 的 @ 运算 符 ， 它 只 在 Python 3.5 里 被 支持 。 

凡是 支持 Python 3.x 的 解释 器 一 一 包括 PyPy3 2.4.0 一 一 都 可 以 运行 书 里 的 代 
码 (PyPy3 2.4.0 其 实 已 经 支持 Python 3.2.5) 。 有 一 点 需要 注意 的 
yield from 和 asyncio 只 在 Python 3.3 = 或 者 更 新 的 版 本 里 才 有 o 


几乎 所 有 的 代码 稍 做 修改 后 都 能 在 Python 2.7 里 运行 ， 除 了 第 4 章 中 那些 跟 
Unicode 相关 的 例子 ， 这 是 从 Python 3 出 现 以 来 就 有 的 问题 。 


排版 约定 
本 书 使 用 了 下 列 排版 约定 。 
。 楷体 
表示 新 术语 。 
。 等 宽 字 体 (constant width) 


表示 程序 片段 ， 以 及 正文 中 出 现 的 变量 、 画 数 名 、 数据库 RR > 
环境 变量 、 语 句 和 关键 字 


。 加 粗 等 宽 字体 (constant width bold) 
示 应 该 由 用 户 输入 的 命令 或 其 他 文本 。 
。 等 宽 斜 体 (Constant width italic) 


表示 应 该 由 用 户 输入 的 值 或 根据 上 下 文 确定 的 值 欧 换 的 文本 。 


FE 


vet 


~I 该 图 标 表示 提示 或 建议 。 


` 该 图 标 表 示 一 般 注 记 。 


Be 该 图 标 表示 警告 或 警示 。 


使 用 代码 示例 


中 的 所 有 完整 代码 和 大 多 数 程序 片段 都 可 以 从 本 书 的 GitHub 代码 库 中 获 
又 o 


我 们 很 希望 但 并 不 强制 要 求 你 在 引用 本 书 内 容 时 加 上 引用 说 明 。 引 用 说 明 一 
般 包 括 书 名 、 作 者 、 出 版 社 和 ISBN。 比 如 : “Fluent Python by Luciano 
Ramalho (O'Reilly). Copyright 2015 Luciano Ramalho, 978-1-491-94600-8.” 


Safari® Books Online 


> Safari 


afari Books Online 是 应 运 而 生 的 数字 图 书馆 。 它 同时 以 图 书 和 视频 的 形式 出 
版 世界 顶级 技术 和 商务 作家 的 专业 作品 。 


技术 专家 、 软 件 开发 人 员 、Web 设计 师 、 商 务 人 士 和 创意 在 开展 调 
研 、 解 决 问 题 、 学 习 和 认证 培训 时 ， 都 将 Safari Books nE gee at Rf 
的 首选 渠道 。 

对 于 组 织 团 体 、 政 府 机 构 和 个 人 ，Safari Books Online 提供 各 种 产品 组 合 和 
灵活 的 定价 策略 。 用 户 可 通过 一 个 功能 完备 的 数据 库 检 索 系 统 访 问 O'Reilly 


Media、Prentice Hall Professional » Addison-Wesley Professional 、 Microsoft 
Press ` Sams ` Que ` Peachpit Press ` Focal Press ` Cisco Press ` John Wiley & 


Sons ` Syngress ` Morgan Kaufmann ` IBM Redbooks ` Packt ` Adobe Press ` 
FT Press ` Apress ` Manning ` New Riders ` McGraw-Hill ` Jones & Bartlett ` 
Course Technology 以 及 其 他 几 十 家 出 版 社 的 上 和 于 种 图 书 、 培 训 视 频 和 正式 出 
版 之 前 的 书稿 。 要 了 解 Safari Books Online 的 更 多 信息 ， 我 们 网 上 见 。 


联系 我 们 
请 把 对 本 书 的 评价 和 问题 发 给 出 版 社 。 
美国 : 
O'Reilly Media, Inc. 
1005 Gravenstein Highway North 
Sebastopol, CA 95472 
中 国 : 
北京 市 西城 区 西直门 南大 街 2 号 成 馈 大 厦 C BE 807 室 (100035) 
奥 莱 利 技术 咨询 (北京 ) 有 限 公司 
OReilly 的 每 一 本 书 都 有 专属 网 页 ， 你 可 以 在 那里 找到 本 书 的 相关 信息 ， 包 
括 勘误 表 、 示 例 以 及 其 他 信息 。 本 书 的 网 站 地 址 是 : 
http://shop.oreilly.com/product/0636920032519.do 
对 于 本 书 的 评论 和 技术 性 问题 ， 请 发 送 电 子 邮件 到 : 


bookquestions@oreilly.com 


要 了 解 更 多 O'Reilly 图 书 、 培 训 课程 、 会 议和 新 闻 的 信息 ， 请 访问 以 下 网 


站 : http://www.oreilly.com 


T 


我 们 在 Facebook 的 地 址 如 下 : http://facebook.com/oreilly 
请 天 注 我 们 的 Twitter 动态 : http://twitter.com/oreillymedia 


我 们 的 YouTube 视频 地 址 如 下 : http://www.youtube.com/oreillymedia 


致谢 


Josef Hartwig 设计 的 包 险 斯 国际 象棋 套装 体现 了 最 佳 的 设计 理念 美观 、 简 
洁 而 清晰 。 有 一 位 建筑 师父 亲 ， 以 及 一 位 字体 设计 师弟 第 ，Guido van 
Rossum 设计 出 了 一 门 经 典 的 编程 语言 。 我 之 所 以 热衷 于 教授 Python， 也 正 
是 因为 它 的 美观 、 简 洁 和 清晰 。 


Alex Martelli 和 Anna Ravenscroft 是 最 先 看 到 本 书 大 纲 的 人 ， 也 是 他 们 豆 励 
我 把 大 纲 交 给 O'Reilly 出 版 社 的 。 他 们 的 书 不 但 加 我 展示 了 地 道 的 Python 代 
码 ， 还 让 我 见识 了 什么 才 称 得 上 是 清晰 、 准 确 和 有 深度 的 技术 写作 。Alex 在 
Stack Overflow 上 的 5000 多 个 回答 也 体现 了 他 对 Python 语言 基础 和 正确 用 
法 的 深入 理解 。 


Martelli 和 Ravenscroft 同时 也 是 本 书 的 技术 审 稿 人 。 除 了 他 们 之 外 ， 技 术 审 
稿 人 还 有 两 位 : Lennart Regebro 和 Leonardo Rochael。 技 术 审 稿 团 队 里 的 每 
个 人 都 至 少 有 15 年 的 Python 经 验 ， 为 许 许 多 多 具有 广泛 影响 力 的 Python 项 
目 贡献 过 代码 ， 并 且 跟 社区 里 的 其 他 开发 者 走 得 很 近 。 审 稿 人 一 共 提 出 了 数 
百 个 修订 、 建 议 、 问 题 和 观点 ， 为 这 本 书 做 出 了 巨大 贡献 。 另 外 ，Victor 
Stinner 帮 我 审阅 了 第 18 章 ， 他 同时 也 是 该 章 里 提 到 的 asyncio 的 维护 者 
之 一 。 在 过 去 的 几 个 月 里 能 够 跟 他 们 合作 ， 我 感到 很 宋 池 。 


本 书 编辑 Meghan Blanchette 是 一 位 出 色 的 导师 。 她 不 但 帮助 我 梳理 整 本 书 的 
结构 、 增 强 内 容 的 连贯 性 ， 还 为 我 指出 哪里 写 得 不 够 有 趣 ， 并 且 督 促 我 及 时 
交 稿 。Brian MacDonald 在 Meghan 休假 的 时 候 帮 忙 编辑 了 第 三 部 分 。 跟 他 们 
以 及 O'Reilly 的 所 有 人 打交道 的 过 程 都 十 分 愉快 。 另 外 Atlas 系统 的 开发 和 

(Atlas 是 O'Reilly 的 图 书 出 版 平台 ， 我 就 是 在 这 个 平台 上 写 


Mario Domenech Goulart 在 看 过 本 书 第 一 次 提前 发 行 的 版 本 后 ， 提 供 了 海量 

的 详细 建议 。 另 外 我 还 从 Dave Pawson ` Elias Dorneles ` Leonardo Alexandre 
Ferreira Leite ` Bruce Eckel ` J. S. Bueno ` Rafael Gonçalves ` Alex Chiaranda ` 
Guto Maia ` Lucas Vido 和 Lucas Brunialti 那里 获得 了 宝贵 的 反馈 。 


几 年 来 有 很 多 人 都 在 劝 我 写 书 ，Rubens Prates ` Aurelio Jargas ` Rudá Moura 
和 Rubens Altimari 这 几 位 算是 最 有 说 服 力 的 了 。Mauricio Bussab 算得 上 市 我 
入 门 的 人 ， 并 且 他 让 我 有 了 第 一 次 写 书 的 尝试。Renzo Nuccitelli 2 A7E-FIX 
ae 0 python.pro.br 项 目的 进度 ， 他 从 一 开始 
Wi Fe 


Python 巴西 社区 是 一 个 集思广益 、 乐 于 分 享 且 充满 乐趣 的 地 方 。Python 巴西 
小 组 中 有 数 千 个 人 ， 每 次 的 全 国 范 围 的 会 议 都 会 把 成 百 上 千 人 聚集 在 一 起 。 
在 我 的 Python 爱好 者 成 长 之 路 上 ， 对 我 影响 最 大 的 人 有 : Leonardo 


Rochael ` Adriano Petrich ` Daniel Vainsencher ` Rodrigo RBP Pimentel ` Bruno 


Gola ` Leonardo Santagada ` Jean Ferri ` Rodrigo Senra ` J. S. Bueno ` David 
Kwast ` Luiz Irber » Osvaldo Santana ` Fernando Masanori ` Henrique Bastos ` 
Gustavo Niemayer ` Pedro Werneck `œ Gustavo Barbieri 、 Lalo Martins ` Danilo 
Bellini 和 Pedro Kroger ° 


Dorneles Tremea 是 个 非常 棒 的 朋友 (他 很 愿意 花 时 间 分 享 他 的 知识 ) ， 他 不 
但 是 很 厉害 的 开发 者 ， 还 是 巴西 Python 协会 中 最 鼓舞 人 心 的 领导 人 “。 可 惜 他 
过 早 离开 了 我 们 。 


我 的 学 生 们 同时 也 是 我 的 老师 ， 他 们 的 问题 、 见 解 、 反 馈 和 那些 富有 创造 性 
的 回答 教会 了 我 很 多 。Erico Andrei 和 Simples Consultoria 让 我 头 一 次 有 机 会 
集中 精力 做 一 名 Python 教师 。 


Martijn Faassen 是 我 的 Grok 导师 ， 他 同 我 分 享 了 很 多 关于 Python MERE 
特 人 的 想法 。Martijn 所 做 的 事情 ， 还 有 来 目 Zope、Plone 和 Pyramid planets 
的 Paul Everitt » Chris McDonough ` Tres Seaver ` Jim Fulton ` Shane 
Hathaway ` Lennart Regebro ` Alan Runyan ` Alexander Limi ` Martijn Pieters 
和 Godefroid Chapelle 等 人 所 做 的 事情 ， 在 我 事业 发 展 的 过 程 中 起 到 了 决定 
性 的 作用 。 多 亏 了 Zope 和 第 一 波 互联 网 浪潮 ， 让 我 在 1998 年 就 开始 从 事 
Python 相关 的 工作 并 以 此 为 生 。Josk Octavio Castro Neves 是 我 的 搭档 ， 我 们 
在 巴西 开 了 第 一 家 以 Python 业务 为 主 的 软件 公司 。 


在 更 广阔 的 Python 社区 当中 高 手 如 云 ， 我 实在 是 没 办 法 一 一 列 出 他 们 的 名 
字 。 但 是 除了 之 前 提 到 的 之 外 ， 我 还 要 感谢 Steve Holden、Raymond 
Hettinger ` A.M. Kuchling ` David Beazley ` Fredrik Lundh ` Doug Hellmann ` 
Nick Coghlan ` Mark Pilgrim ~ Martijn Pieters ~ Bruce Eckel ` Michele 
Simionato ` Wesley Chun ` Brandon Craig Rhodes ` Philip Guo ` Daniel 
Greenfeld ` Audrey Roy 和 Brett Slatkin ， 感 谢 他 们 让 我 见识 到 更 新 更 好 的 教 
授 Python 的 方法 。 


我 基本 上 是 在 家 里 的 办 公 室 和 两 个 公共 空间 完成 这 本 书 的 写作 的 。 两 个 公共 
空间 分 别 是 CoffeeLab 和 Garoa Hacker Clube。CoffeeLab 是 位 于 巴西 圣保罗 
Vila Madalena 区 的 一 个 咖啡 极 客 大 本 营 。Garoa Hacker Clube 则 是 一 个 开放 的 
墨客 空间 ， 任 何人 都 可 以 在 这 里 实验 他 们 的 新 点 子 。 


Garoa 社区 还 为 我 提供 了 灵感 、 基 础 设施 和 放松 的 环境 ， 我 想 Aleph 会 喜欢 
HAPN ° 


我 的 母亲 Maria Lucia 和 父亲 Jairo 一 直 都 以 各 种 方式 文 持 我 。 我 真希 望 我 的 
父亲 还 健在 并 看 到 本 书 的 出 版 ， 同 时 也 为 能 与 我 的 母亲 分 享 这 本 书 而 感到 开 
> o 


在 写 这 本 书 的 15 个 月 里 ， 吴 为 丈夫 的 我 儿 乎 一 直 在 工作 ， 我 的 妻子 Marta 
Mello 陪 我 一 起 熬 过 了 这 段 日 子 。 在 这 如 同 跑马 拉 松 的 写作 过 程 中 ， 她 不 但 
一 直 文 持 我 ， 而 且 在 我 想 要 放弃 的 时 候 陪 我 一 起 渡 过 难关 。 


谢谢 你 们 每 一 个 人 ， 谢 谢 你 们 做 的 每 一 件 事 。 
电子 书 


扫描 如 下 二 维 码 ， 即 可 购买 本 书 电 子 版 。 


第 一 部 分 | rae 


第 1 章 Python 数据 模型 


Guido 对 语言 设计 美学 的 深入 理解 让 人 震惊 。 我 认识 不 少 很 不 错 的 编程 
语言 设计 者 ， 他 们 设计 出 来 的 东西 确实 很 精彩 ， 但 是 从 来 都 不 会 有 用 
J ° Guido 知道 如 何在 理论 上 做 出 一 定 妥 协 ， 设 计 出 来 的 语言 让 使 用 者 
觉得 如 沐 春 风 ， 这 真是 不 可 多 得 。! 


Jim Hugunin 


Jython 的 作者 ，AspectJ 的 作者 之 一 ，.NET DLR 架构 师 


1 摘自 “Story of Jython”， 这 是 Jython Essentials (Samuele Pedroni 和 Noel Rappin 著 ，O'Reilly 出 版 
社 ，2002 年 ) 一 书 的 序 。 


Python 最 好 的 品质 之 一 是 一 致 性 。 当 你 使 用 Python 工作 一 会 儿 后 ， 就 会 开 
始 理解 Python 语言 ， 并 能 正确 猜测 出 对 你 来 说 全 者 的 语言 特征 。 


然而 ， 如 果 你 带 着 来 自 其 他 面向 对 象 语言 的 经 验 进 入 Python 的 世界 ， 会 对 
len(collection) 而 不 是 collection .len( ) 写法 觉得 不 适 。 当 你 进 
一 步 理 解 这 种 不 适 感 背 后 的 原因 之 后 ， 会 发 现 这 个 原因 ， 和 它 所 代表 的 庞大 
的 设计 思想 ， 是 形成 我 们 通常 说 的 “Python 风格 ”(Pythonic) 的 关键 。 这 种 
设计 思想 完全 体现 在 Python 的 数据 模型 上 ， 而 数据 模型 所 描述 的 API， 为 使 
用 最 地 道 的 语言 特性 来 构建 你 自己 的 对 象 提 供 了 工具 。 


数据 模型 其 实 是 对 Python 框架 的 描述 ， 它 规范 了 这 门 语言 自身 构建 模块 的 接 
口 ， 这 些 模 块 包括 但 不 限于 序列 、 和 迭代 器 、 画 数 、 类 和 上 下 文 管理 器 。 


不 管 在 哪 种 框架 下 写 程 序 ， 都 会 花费 大 量 时 间 去 实现 那些 会 被 框架 本 吴 调 用 
的 方法 ， Python 也 不 例外 。Python 解释 器 人 页 到 特殊 的 句法 时 ， 会 使 用 特殊 
方法 去 激活 一 些 基 本 的 对 象 操作 ， 这 些 特殊 方法 的 名 字 以 两 个 下 划 线 开头 ， 
以 两 个 下 划 线 结尾 (例如 __getitem ) 。 比 如 obj[key] 的 背后 就 是 
__getitem__ 方法 , 为 了 能 求 得 my_collection[key] 的 值 ， 解 释 器 实 
际 上 会 调用 my_collection. getitem (key) ° 


ae 法 名 能 让 你 自己 的 对 象 实 现 和 支持 以 下 的 语言 构架 ， 并 与 之 交 


。 属性 访问 

运算 符 重 载 

。 函数 和 方法 的 调用 

。 对 象 的 创建 和 销毁 

字符 串 表 示 形 式 和 格式 化 
管理 上 下 文 (Bl with 块 ) 


本 magic 和 dunder 


魔术 方法 (magic method) 是 特殊 方法 的 有 昵称。 有些 Python 开发 者 在 提 
到 getitem _ 这 个 特殊 方法 的 时 候 ， 会 用 诸如 “下 划 线 一 下 划 线 一 
getitem2 这 种 说 法 ， 但 是 显然 这 种 说 法 会 引起 歧义 ， 因 为 像 ” x 这 种 
命名 在 Python 里 还 有 其 他 含义 ，? 但 是 如 果 完 整地 说 出 “下 划 线 一 下 划 
线 一 getitem 一 下 划 线 一 下 划 线 >， 又 会 很 麻烦 。 于 是 我 跟着 Steve 
Holden， 一 位 技术 书 作者 和 老师 ， 学 会 了 “ 双 下 一 getitem” (dunder- 
getitem) 这 种 说 法 。 于 是 乎 ， 特 殊 方法 也 叫 双 下 方法 (dunder 


method) ° 4 


2A] under-under-getitem 的 直译 。 译 者 注 


3+ 3: 详 见 9.7 节 。 


4 我 是 从 Steve Holden 那里 第 一 次 听 说 dunder 这 个 说 法 的 。 根 据 维基 百 sul 解释 ，Mark Johnson 和 
Time Hochberg ERA n 写 中 开始 使 用 这 个 词 的 人 。 那 是 2002 年 9 他 们 两 人 在 邮件 列表 
里 回复 ( 双 下 划 线 ) AD? ”这 个 问题 时 提 到 了 dunder， 最 先世 复 的 是 Johnson, 11 分 钟 后 
Hochberg g 也 回 复 了 。 


1.1 一 操 Python 风 格 的 纸牌 


接 下 来 我 会 用 一 个 非常 简单 的 例子 来 展示 如 何 实现 getitem_ _ 和 
len 这 两 个 特殊 方法 ， 通 过 这 个 例子 我 们 也 能 见识 到 特殊 方法 的 强 
大 。 


示例 1-1 里 的 代码 建立 了 一 个 纸牌 类 。 


示例 1-1 一气 有 序 的 纸牌 


import collections 


Card = collections.namedtuple('Card', ['rank', 'suit']) 


class FrenchDeck: 
ranks = [str(n) for n in range(2, 11)] + list('JQKA' ) 
suits = 'spades diamonds clubs hearts'.split() 


def __ init__(self): 
self._cards = [Card(rank, suit) for suit in self.suits 
for rank in self.ranks] 


__len__(self): 
return len(self._cards) 


__getitem__(self, position): 
return self. _cards[position] 


首先 ， 我 们 用 collections.namedtuple 构建 了 一 个 简单 的 类 来 表示 一 
张 纸 牌 。 自 Python 2.6 开始 ，namedtuple 就 加 入 到 Python 里 ， 用 以 构建 

只 有 少数 属性 但 是 没有 方法 的 对 象 ， 比 如 数据 库 条 目 。 如 下 面 这 个 控制 台 会 
话 所 示 ， 利 用 namedtuple， 我 们 可 以 很 轻松 地 得 到 一 个 纸牌 对 象 : 


>>> beer_card = Card('7', 'diamonds') 
>>> beer_card 


Card(rank='7', suit='diamonds' ) 


当然 ， 我 们 这 个 例子 主要 还 是 关注 FrenchDeck 这 个 类 ， 它 既 短 小 又 精 
悍 。 首 先 ， 它 跟 任 何 标准 Python 集合 类 型 一 样 ， 可 以 用 len( ) 函数 来 查看 
一 琶 牌 有 多 少 张 : 


>>> deck = FrenchDeck() 
>>> len(deck) 
52 


NK REP Se CRP EASA, EE oka ok, BRAD: 
deck[0] 或 deck[-1]。 这 都 是 由 getitem_ 方法 提供 的 : 


>>> deck[0] 
Card(rank='2', suit='spades' ) 
>>> deck[-1] 
Card(rank='A', suit='hearts' ) 


我 们 需要 单独 写 一 个 方法 用 来 随机 抽取 一 张 纸 牌 吗 ? 没 必 要 ，Python 已 经 内 
置 了 从 一 个 序列 中 随机 选 出 一 个 元 素 的 函数 random.choice， 我 们 直接 把 
它 用 在 这 一 摆 纸 牌 实 例 上 就 好 : 


>>> from random import choice 
>>> choice(deck) 
Card(rank='3', suit='hearts') 
>>> choice(deck) 


Card(rank='K', suit='spades' ) 
>>> choice(deck) 
Card(rank='2', suit='clubs') 


现在 已 经 可 以 体会 到 通过 实现 特殊 方法 来 利用 Python 数据 模型 的 两 个 好 处 。 


。 作为 你 的 类 的 用 户 ， 他 们 不 ae (“怎么 得 到 
元 素 的 总 数 ? 是 ,size( ) 还 是 .length( ) 还 是 别 的 什么 ? ”) 。 


。 可 以 更 加 方便 地 利用 Python 的 标准 库 ， 比 如 random.choice KZ, 
从 而 不 用 重新 发 明 轮 子 。 


而 且 好 戏 还 在 后 


因为 _ getitem _ 方法 把 [] 操作 交 给 了 self._cards 列表 ， 所 以 我 们 
的 deck 类 自动 支持 切片 (slicing) 操作 。 下 面 列 出 了 查看 一 摊牌 最 上 面 3 
维和 只 看 牌 面 是 A 的 牌 的 操作 。 其 中 第 二 种 操作 的 具体 方法 是 ， 先 抽出 索引 
是 12 的 那 张 牌 ， 然 后 每 隔 13 张 牌 拿 1 SK: 


>>> deck[:3] 
[Card(rank='2', suit='spades'), Card(rank='3', suit='spades'), 
suit='spades')] 


[Card(rank='A', suit='spades'), Card(rank='A', suit='diamonds'), 
Card(rank='A', suit='clubs'), Card(rank='A', suit='hearts')] 


另外 ， 仅 仅 实现 了 __getitem__ D, XREN IATCAY T : 


>>> for card in deck: # doctest: +ELLIPSIS 
print(card) 

Card(rank='2', suit='spades') 

Card(rank='3', suit='spades' ) 

Card(rank='4', suit='spades' ) 


反 向 和 迭代 也 没关系 : 


>>> for card in reversed(deck): # doctest: +ELLIPSIS 
print(card) 
Card(rank='A', suit='hearts') 


Card(rank='K', suit='hearts') 
Card(rank='Q', suit='hearts') 


` doctest 中 的 省 略 


为 了 尽 可 能 保证 书 中 的 Python 控制 台 会 话 内 容 的 正确 性 ， 这 些 内 容 都 是 
直接 从 doctest 里 摘录 的 。 在 测试 中 ， 如 果 可 能 的 输出 过 长 的 话 ， 那 么 过 
长 的 内 容 就 会 被 如 上 面 例子 的 最 后 一 行 的 省 略 号 〈. . .) 所 替代 。 此 时 
就 需要 #doctest: +ELLIPSIS 这 个 指令 来 保证 doctest 能 够 通过 。 要 
是 你 自己 照 着 书 中 例子 在 控制 台中 剖 人 代码， 可 以 略 过 这 一 指令 。 


迭代 通常 是 隐 式 的 ， 壁 如 说 一 个 集合 类 型 没有 实现 contains _ 方法 ， 
那么 in 运算 符 束 会 按 顺 序 做 一 次 迭代 搜索 。 于 是 ，in 运算 符 可 以 用 在 我 们 
的 FrenchDeck 类 上 ， 因 为 它 是 可 迭代 的 : 


>>> Card('Q', 'hearts') in deck 
True 


>>> Card('7', 'beasts') in deck 
False 


那么 排序 呢 ? 我们 按照 常规 ， 用 点 数 来 判定 扑克 有 牌 的 大 小 ，2 最 小 、A 最 
K; 同时 还 要 加 上 对 花色 的 判定 ， 黑 桃 最 大 、 红 桃 次 之 、 方 块 再 次 、 梅 花 最 
小 。 下 面 就 是 按照 这 个 规则 来 给 扑克 有 牌 排序 的 函数 ， 梅 花 2 的 大 小 是 O, 
桃 A 是 51: 


suit_values = dict(spades=3, hearts=2, diamonds=1, clubs=0) 
def spades_high(card): 
rank_value = FrenchDeck.ranks.index(card.rank) 
return rank_value * len(suit_values) + suit_values[card.suit] 


有 了 spades_high 函数 ， 就 能 对 这 把 有 牌 进行 升序 排序 了 : 


>>> for card in sorted(deck, key=spades_high): # doctest: +ELLIPSIS 
pin print(card) 
Card(rank='2', suit='clubs') 
Card(rank='2', suit='diamonds' ) 
Card(rank='2', suit='hearts') 
. (46 cards ommitted) 
Card(rank='A', suit='diamonds' ) 


Card(rank='A', suit='hearts') 
Card(rank='A', suit='spades') 


虽然 FrenchDeck 隐 式 地 继承 了 object 类 ，5 但 功能 却 不 是 继承 而 来 的 。 
我 们 通过 数据 模型 和 一 些 合成 来 实现 这 些 功能 。 通 过 实现 __ len__ 和 

_ getitem _ 这 两 个 特殊 方法 ，FrenchDeck 就 跟 一 个 Python 自 有 的 序 
列 数据 类 型 一 样 ， 可 以 体现 出 Python 的 核心 语言 特性 (例如 迭代 和 切片 ) 
同时 这 个 类 还 可 以 用 于 标准 库 中 诸如 random,choice、reversed 和 
sorted 这 些 函 数 。 另 外 ， 对 合成 的 运用 使 得 len 和 _ getitem_ _ 
的 具体 实现 可 以 代理 给 self._cards 这 个 Python 列表 (El list 对 

象 ) 。 


5 在 Python 2 F, Xf object 的 继承 需要 显 式 地 写 为 FrenchDeck(object); 而 在 Python 3 
个 继承 关系 是 默认 的 。 


Di 


` 如 何 洗 牌 


按照 目前 的 设计 ，FrenchDeck 是 不 能 洗 牌 的 ， 因 为 这 抒 牌 是 不 可 变 的 

(immutable) : 卡 牌 和 它们 的 位 置 都 是 固定 的 ， 除 非 我 们 破坏 这 个 类 的 
封装 性 ， 直 接 对 _cards 进行 操作 。 第 11 章 会 讲 到 ， 其 实 只 需要 一 行 
代码 来 实现 setitem_ 方法 ， 洗 牌 功 能 就 不 是 问题 了 。 


1.2 ”如 何 使 用 特殊 方法 


首先 明确 一 点 ， 特 殊 方法 的 存在 是 为 了 被 Python 解释 器 调用 的 ， 你 自己 并 不 
需要 调用 它们 。 也 就 是 说 没有 my_object. len __() 这 种 写法 ， 而 应 该 
使 用 len(my_object)。 在 执行 len(my_object) 的 时 候 ， 如 果 
my_object 是 一 个 自 定义 类 的 对 象 ， 那 么 Python 会 自己 去 调用 其 中 由 你 实 
现 的 _ len _ 方法 。 


然而 如 果 是 Python 内 置 的 类 型 ， 比 如 列表 (list) 、 字 符 串 (str) `F 
节 序 列 (bytearray) 等 ， 那 么 CPython 会 抄 个 近 路 ， _— len__ 实际 上 会 
直接 返回 PyvVar0bject 里 的 ob_size 属性 。Pyvar0bject 是 表示 内 存 
o 置 对 象 的 C 语言 结构 体 。 直 接 读 取 这 个 值 比 调用 一 个 方法 要 
WIRE ° 


很 多 时 候 ， 特 殊 方法 的 调用 十 隐 陈 的 ， 比 如 for i in x: ANEA, Ala 
其 实用 的 是 iter (x)， 而 这 个 函数 的 痛 后 则 是 x.__iter__() 方 法。 当然 
前 提 是 这 个 方法 在 x 中 被 实现 了 。 


通常 你 的 代码 无 需 直 接 使 用 特殊 方法 。 除 非 有 大 量 的 元 编程 存在 ， 直 接 调 用 
特殊 方法 的 频率 应 该 远 远 低 于 你 去 实现 它们 的 次 数 。 唯 一 的 例外 可 能 是 
init_ Fe, 你 的 代码 里 可 能 经 常会 用 到 它 ， 目的 是 在 你 自己 的 子 类 的 
init _ 方法 中 调用 超 类 的 构造 器 

通过 内 置 的 函数 (例如 len、iter、str， 等 等 ) 来 使 用 特殊 方法 是 最 好 的 
选择 。 这 些 内 置 函 数 不 仅 会 调用 特殊 方法 ， 通 常 还 提供 额外 的 好 处 ， 而 且 对 
于 内 置 的 类 来 说 ， 它 们 的 速度 更 快 。14.12 节 中 有 详细 的 例子 。 


不 要 自己 想当然 地 随意 添加 特殊 方法 ， 比 如 foo__“ 之 类 的 ， 因 为 虽然 现 
在 这 个 名 字 没 有 被 Python 内 部 使 用 ， 以 后 就 不 一 定 了 。 


1.2.1 模拟 数值 类 型 


利用 特殊 方法 ， 可 以 让 目 定 义 对 象 通过 加 号 “+” (或 是 别 的 运算 符 ) 进行 运 
nate 第 13 章 对 此 有 详细 的 介绍 ， 现 在 只 是 借用 这 个 例子 来 展示 特殊 方法 的 


我 们 来 实现 一 个 二 维 向 量 (vector) 类 ， 这 里 的 同 量 就 是 欧 几 里 得 几何 中 常 
用 的 概念 ， 常 在 数学 和 物理 中 使 用 的 那个 〈 见 图 1-1) ° 


Vector(4, 5) 


Vector(2, 4) 


Vector(2, 1) 


图 1-1: 一 个 二 维 向 量 加 法 的 例子 , Vector(2,4) + Vextor(2,1) = 
Vector(4,5) 


本 Python 内 置 的 complex 类 可 以 用 来 表示 二 维 向 量 ， 但 我 们 这 个 
自 定义 的 类 可 以 扩展 到 n 维 向 量 ， 详 见 第 14 e 
为 了 给 这 个 类 设计 API， 我 们 先 写 个 模拟 的 控制 台 会 话 来 做 doctest。 下 面 这 
一 段 代码 就 是 图 1-1 所 示 的 向 量 加 法 : 


>>> v1 = Vector(2, 4) 


>>> v2 = Vector(2, 1) 
>>> vi + v2 
Vector(4, 5) 


注意 其 中 的 + 运算 符 所 得 到 的 结果 也 是 一 个 回 量 ， 而 且 结果 能 被 控制 台 友 好 
地 打印 出 来 。 


abs 是 一 个 内 置 画 数 ， 如 果 输 入 是 整数 或 者 浮 点 数 ， 它 返回 的 有 古 输入 值 的 绝 
对 值 ， 如 果 输 入 是 复数 (complex number) ， 那 么 返回 这 个 复数 的 模 。 为 了 
保持 一 致 性 ， 我 们 的 API EAEE] abs 函数 的 时 候 ， 也 应 该 返回 该 向 量 的 
模 : 


>>> v = Vector(3, 4) 
>>> abs(v) 
5.0 


我 们 还 可 以 利用 * BARS AAA ( 即 同 量 与 数 的 乘法 ， 得 到 
的 结果 向 量 的 方向 与 原 向 量 一致 "， 模 变 大 ) : 


量 的 方向 与 原 向 量 相反 。 一 一 编者 注 


z 


6 如 果 向 量 与 负数 相 乘 ， 得 到 的 结果 


12) 


>>> abs(v * 3) 
15.0 


示例 1-2 包含 了 一 个 Vector 类 的 实现 ， 上 面 提 到 的 操作 在 代码 里 是 用 这 些 
特殊 方法 实现 的 : __repr 、_ abs 、 add 和 mul e 


示例 1-2 一 个 简单 的 二 维 向 量 类 


from math import hypot 
class Vector: 
def _ init__(self, x=0, y=0): 
self.x = x 


self.y =y 


def _repr_ (self): 
return 'Vector(%r, %r)' % (self.x, self.y) 


def _abs_ (self): 
return hypot(self.x, self.y) 


def _ bool (self): 
return bool(abs(self)) 


def _add_ (self, other): 
x = self.x + other.x 
y = self.y + other.y 
return Vector(x, y) 


__mul__(self, scalar): 
return Vector(self.x * scalar, self.y * scalar) 


里 然 代码 里 有 6 个 特殊 方法 ， 但 这 些 方法 (BRT init) 并 不 会 在 这 个 
类 上 自身 的 代码 中 使 用 。 即 便 其 他 程序 要 使 用 这 个 类 的 这 些 方法 ， 也 不 会 直接 
调用 它们 ， 就 像 我 们 在 上 面 的 控制 台 对 话 中 看 到 的 。 上 文 也 提 到 过 ， 一 般 只 
二 的 解释 右 会 频 案 地 直接 调用 这 些 方法 。 接 下 来 看 看 每 个 特殊 方法 的 
实现 。 


1.2.2 ”字符 串 表 示 形 式 


Python 有 一 个 内 置 的 函数 叫 repr， 它 能 把 一 个 对 象 用 字符 串 的 形式 表达 出 
来 以 便 辨 认 ， 这 就 是 “字符 串 表 示 形 式 ”。repr 就 是 通过 _ repr__ 这 个 特 
殊 方法 来 得 到 一 个 对 象 的 字符 串 表 示 形 式 的 。 如 果 没 有 实现 __repr。， 当 
我 们 在 控制 台 里 打印 一 个 向 量 的 实例 时 ， 得 到 的 字符 串 可 能 会 是 <Vector 

object at 0x10e100070> ° 


交互 式 控 制 台 和 调试 程序 (debugger) FA repr 画 数 来 获取 字符 串 表 示 形 
式 ; 在 老 的 使 用 % 符号 的 字符 串 格 式 中 ， 这 个 函数 返回 的 结果 用 来 代替 %r 
所 代表 的 对 象 ;， 同样 ，str .format 函数 所 用 到 的 新 式 字符 串 格 式 化 语法 也 
是 利用 了 repr， 才 把 !r 字段 变 成 字符 串 。 


` % 和 str.format 这 两 种 格式 化 字符 串 的 手段 在 本 书 中 都 会 使 
用 。 其 实 整个 Python 社区 都 在 同时 使 用 这 两 种 方法 。 个 人 来 讲 ， 我 越 来 
越 喜 欢 str .format T, (BÆ Python 程序 员 更 喜欢 简单 的 %。 因 此 ， 
这 两 种 形式 并 存 的 情况 还 会 持续 下 去 。 


E repr _ 的 实现 中 ， 我 们 用 到 了 %r 来 获取 对 象 各 个 属性 的 标准 字符 串 
表示 形式 一 一 这 是 个 好 习惯 ， 它 暗示 了 一 个 关键 : Vector(1，2) 和 
Vector('1', '2') 是 不 一 样 的 ， 后 者 在 我 们 的 定义 中 会 报错 ， 因 为 向 量 
对 象 的 构造 函数 只 接受 数值 ， 不 接受 字符 串 o 


.实际 上 ， Vector 的 构造 函数 接受 字符 串 。 而 使 用 字符 串 构造 的 Vector， 这 6 个 特殊 方 
， 只 有 _abs 和 ”bool _ 会 报 和 oy 24 节 定义 的 bool _ KARA o 编者 


HF DF 


repr_ _ 所 返回 的 字符 串 应 该 准确 、 无 收 义 ， 并 且 尽 可 能 表达 出 如 何 用 代 
码 创建 出 这 个 被 打印 的 对 象 。 因 此 这 里 使 用 了 类 似 调用 对 象 构造 器 的 表达 形 
式 (比如 Vector(3，4) 就 是 个 例子 ) 


_repr _ 和 str 的 区 别 在 于 ， 后 者 是 在 str( ) KAEH, KEE 
用 print 函数 打印 一 个 对 象 的 时 候 才 被 调用 的 ， 并 且 它 返回 的 字符 串 对 终 
端 用 户 更 友好 。 


如 果 你 只 想 实 现 这 两 个 特殊 方法 中 的 一 个 ，__repr__ 是 更 好 的 选择 ， 因 为 
如 果 一 个 对 象 没 有 __str__ aN, m Python 又 需要 调用 它 的 时 候 ， 解 释 器 
会 用 __repr__ FERBER ° 


~I “Difference between __ str_ and_ repr__ in Python” Stack 
Overflow 上 的 一 个 问题 ，Python 程序 员 Alex Martelli 和 Martijn Pieters 
的 回答 很 精彩 。 


1.2.3 ”算术 运算 符 


通过 add__ 和 ___mul__, 示例 1-2 为 向 量 类 带 来 了 + 和 * 这 两 个 算术 运 
算 符 。 值 得 注意 的 是 ， 这 两 个 方法 的 返回 值 都 是 新 创建 的 向 量 对 象 ， 被 操作 
的 两 个 向 量 (self 或 other) 还 是 原封 不 动 ， 代 码 里 只 是 读 取 了 它们 的 值 
而 已 。 中 组 运算 符 的 基本 原则 了 驶 是 不 改变 操作 对 象 ， 而 是 产 出 一 个 新 的 值 。 
第 13 章 会 谈 到 更 多 这 方面 的 问题 。 


i 

ax 示例 1-2 只 实现 了 数字 做 乘 数 、 向 量 做 被 乘 数 的 运算 ， 乘 法 的 交 
换 律 则 被 忽略 了 。 在 第 13 章 里 ， 我 们 将 利用 __rmul__ 解决 这 个 问 
题 。 


1.2.4 自 定 义 的 布尔 值 


尽管 Python 里 有 bool 类 型 ， 但 实际 上 任何 对 象 都 可 以 用 于 需要 布尔 值 的 上 
下 文中 《比如 if while 语句 ， 或 者 and、or 和 not 运算 符 ) 。 为 了 判 
定 一 个 值 x 为 真 还 是 为 假 ，Python 会 调用 bool(x), ， 这 个 函数 只 能 返回 
True 或 者 False ° 


默认 情况 下 ， 我 们 自己 定义 的 类 的 实例 总 被 认为 是 真 的 ， 除 非 这 个 类 对 
bool 4 __len__ 函数 有 目 己 的 实现 。bool(Xx) 的 背后 是 调用 
x.__bool__() 的 结果 ; 如 果 不 存在 __bool 方法， 那么 bool1(x) 会 
尝试 调用 x. len ()。 若 返回 0， 则 bool 会 返回 False; 否则 返回 
True ° 


我 们 对 bool ”的 实现 很 简单 ， 如 果 一 个 向 量 的 模 是 0， 那么 就 返回 
False， 其 他 情况 则 返回 True。 因为 ”bool _ 函数 的 返回 类 型 应 该 是 布 
尔 型 ， 所 以 我 们 通过 bool(abs(self)) 把 模 值 变 成 了 布尔 值 。 


在 Python 标准 库 的 文档 中 ， 有 一 节 叫 作 “Built-in Types”， 其 中 规定 了 真 值 检 
通过 实现 ”bool _“， 你 定义 的 对 象 融 可 以 与 这 个 标准 保持 一 
于 


` 


如 果 想 让 Vector. bool 更 高 效 ， 可 以 采用 这 种 实现 : 


def _ bool (self): 
return bool(self.x or self.y) 


它 不 那么 易 读 ， 却 能 省 掉 从 abs 到 abs _ 到 平方 再 到 平方 根 这 些 中 
间 步 骤 。 通 过 bool 把 返回 类 型 显 式 转换 为 布尔 值 是 为 了 符合 

_ bool _ 对 返回 值 的 规定 ， 因 为 or 运算 符 可 能 会 返回 x 或 者 y AZ 
的 值 ， 若 x 的 值 等 价 于 真 ， 则 or 返回 x 的 值 ; 否则 返回 y 的 值 。 


1.3 ”特殊 方法 一 览 


Python 语言 参考 手册 中 的 “Data Model” — #24 HS 83 个 特殊 方法 的 名 字 ， 其 
中 47 个 用 于 实现 算术 运算 、 位 运算 和 比较 操作 。 


表 1-1 和 表 1-2 列 出 了 这 些 方法 的 概况 。 


` 这 些 表 并 没有 完全 按照 官方 文档 分 组 。 
表 1-1: 跟 运 算 符 无 关 的 特殊 方法 


format 


complex 


en 、_ getitem 、_ setitem 、_ delitem 、_ contains _ 


__reversed__ 、_ 


_ getattr 、_ getattribute setattr delattr__ 


. 


跟 类 相关 的 


服务 __prepare__ *»__instancecheck__ 、_ subclasscheck_ _ 
Zeal 


表 1-2: 跟 运 算 符 相关 的 特殊 方法 


方法 名 和 对 应 的 运算 符 


-> *、_ truediv / »__floordiv // ` _ mod % ` __divmod 
divmod() 、_ pow ** 或 pow() ` round_ round() 


radd 、_ rsub ` __rmul_ ` rtruediv »__rfloordiv__ ~»__rmod__ ` __rdivmod__ ` __rpow 


方法 名 和 对 应 的 运算 符 


PA at 


m SE 


iadd__»__isub__ ` __imul___ ` ___itruediv__ ` __ifloordiv__»*__imod__ ` __ipow 


SRE Mi Ae 


invert ~»__lshift << > rshift >>> 


rlshift ` rrshift s rand 


ilshift »__irshift »__iand 


2AF Y (Ni EF foot SSE A a 


当 交 换 两 个 操作 数 的 位 置 时 ， 就 会 调用 反 疝 运算 符 (b * a 而 不 
* b) 。 增 量 赋值 运算 符 则 是 种 把 中 绥 运 算 符 变 成 赋值 运算 的 捷 
(a=a* b 就 变 成 了 a *= b) 。 第 13 章 会 对 这 两 者 作出 详细 解 


1.4 为 什么 len 不 是 普通 方法 


我 在 2013 年 问 核心 开发 者 Raymond Hettinger 这 个 问题 时 ， 他 用 “Python 之 
祥 ? 里 的 原 话 回答 了 我 : “实用 胜 于 纯粹 。” 在 1.2 节 里 我 提 到 过 ， 如 果 Xx 是 一 
个 内 置 类 型 的 实例 ， 那 么 len(x) 的 速度 会 非常 快 。 背 后 的 原因 是 CPython 
会 直接 从 一 个 C 结构 体 里 读 取 对 象 的 长 度 ， 完 全 不 会 调用 任何 方法 。 获 取 一 
个 集合 中 元 素 的 数量 是 一 个 很 常见 的 操作 ,在 str > list » memoryview 
等 类 型 上 ， 这 个 操作 必须 高 效 。 


换 句 话说 ，len 之 所 以 不 是 一 个 普通 方法 ， 是 为 了 让 Python 自 训 的 数据 绪 
构 可 以 走后门 ，abs 也 是 同 理 。 但 是 多 亏 了 它 是 特殊 方法 ， 我 们 也 可 以 把 
len 用 于 自 定 义 数据 类 型 。 这 种 处 理 方式 在 保持 内 置 类 型 的 效率 和 保证 语言 
的 一 致 性 之 间 找 到 了 一 个 平衡 点 ， 也 印证 了 “Python 之 禅 中 的 另外 一 名 

话 : “不 能 让 特例 特殊 到 开始 破坏 既定 规则 。” 


` 如 果 把 abs 和 len 都 看 作 一 元 运算 符 的 话 ， 你 也 许 更 能 接受 它们 
一 一 虽然 看 起 来 像 面向 对 象 语言 中 的 函数 ， 但 实际 上 又 不 是 画 数 。 有 一 
门 叫 作 ABC 的 语言 是 Python 的 直系 祖先 ， 它 内 置 了 一 个 # 运算 符 ， 当 
你 写 出 #s 的 时 候 ， 它 的 作用 跟 len 一 样 。 如 果 写 成 x#s 这 样 的 中 组 运 
算 符 的 话 ， 那 么 它 的 作用 是 计算 s 中 x 出 现 的 次 数 。 在 Python 里 对 应 
的 写法 是 s ,count (x)。 注 意 这 里 的 s 是 一 个 序列 类 型 。 


1.5 本章 小 结 


通过 实现 特殊 方法 ， 目 定义 数据 类 型 可 以 表现 得 跟 内 置 类 型 一 样 ， 从 而 让 我 
们 写 出 更 具 表 达 力 的 代码 一 一 或 者 说 ， 更 具 Python 风格 的 代码 。 


Python 对 象 的 一 个 基本 要 求 束 是 它 得 有 合理 的 字符 串 表示 形 式 ， 我 们 可 以 通 
$ repr 和 __str__ 来 满足 这 个 要 求 。 前 者 方便 我 们 调试 和 记录 日 
志 ， 后 者 则 是 给 终端 用 户 看 的 。 这 束 是 数据 模型 中 存在 特殊 方法 __repr__ 
和 _ str_ WRA -° 


对 序列 数据 类 型 的 模拟 是 特殊 方法 用 得 最 多 的 地 方 ， 这 一 点 在 FrenchDeck 
类 的 示例 中 有 所 展现 。 在 第 2 章 中 ， 我 们 会 着 重 介 绍 序列 数据 类 型 ， 然 后 在 
第 10 章 中 ， 我 们 会 把 Vector 类 扩展 成 一 个 多 维 的 数据 类 型 ， 通 过 这 个 练 
习 你 将 有 机 会 实现 自 定 义 的 序列 。 


Python 通过 运算 符 重 载 这 一 模式 提供 了 丰富 的 数值 类 型 ， 除 了 内 置 的 那些 之 
外 ， 还 有 decimal.Decimal 和 fractions.Fraction。 这 些 数据 类 型 
都 支持 中 级 算术 运算 符 。 在 第 13 章 中 ， 我 们 还 会 通过 对 Vector 类 的 扩展 


来 学 习 如 何 实现 这 些 运 算 符 ， 当 然 还 会 提 到 如 何 让 运算 符 满 足 交 换 律 和 增强 
赋值 。 


Python 数据 模型 的 特殊 方法 还 有 很 多 ， 本 书 会 涵盖 其 中 的 绝 大 部 分 ， 探 讨 如 
何 使 用 和 实现 它们 。 


1.6 ”延伸 阅读 


对 本 章 内 容 和 本 书 主题 来 说 ，Python 语言 参考 手册 里 的 “Data Model” 一 章 
(<>) 是 最 符合 规范 的 知识 来 源 。 


Alex Martelli 的 《Python 技术 手册 〈 第 2 版 ) 》 对 数据 模型 的 讲解 很 精彩 。 
我 写 这 本 书 的 时 候 ，《Python 技术 手册 》 的 最 新 版 本 是 2006 年 出 版 的 ， 书 
里 用 的 还 是 Python 2.5， 但 是 Python 关于 数据 模型 的 概念 并 没有 太 大 的 变 
化 ， 而 书 中 Martelli 对 属性 访问 机 制 的 朱 述 ， 应 该 是 除了 CPython 中 的 C ie 
码 之 外 在 这 方面 最 权威 的 解释 。Martelli 还 是 Stack Overflow 上 的 高 产 贡献 
者 ， 在 他 名 下 差不多 有 5000 条 答案 ， 你 也 可 以 去 他 的 Stack Overflow 主页 上 
看 看 。 


David Beazley 若 有 两 本 基于 Python 3 的 书 ， 其 中 对 数据 模型 进行 了 详尽 的 介 
绍 。 一 本 是 《Python 参考 手册 (第 4 版 ，》83， 男 一 本 是 与 Brian K. Jones 合 
著 的 《Python Cookbook (第 3 版 中文 版 》。 


8 该 书 已 由 人 民 邮 电 出 版 社 出 版 ， 书 号 : 978-7-115-24259-4。- ”编者 注 


由 Gregor Kiczales ` Jim des Rivieres 和 Daniel G. Bobrow 合 著 的 The Art of the 
Metaobject Protocol (又 称 AMOP, MIT 出 版 社 ，1991 年 ) 一 书 解释 了 元 对 
象 协议 (metaobject protocol, MOP) 的 概念 ， 而 Python 数据 模型 便 是 对 这 
一 概念 的 一 种 阐释 。 


数据 模型 还 是 对 象 模型 


Python 文档 里 总 是 用 “Python 数据 模型 > 这 种 说 法 ， 而 大 多 数 作 者 提 到 这 
个 概念 的 时 候 会 说 “Python 对 象 模型 ”。Alex Martelli 的 《Python 技术 手 
有 册 〈 第 2 版 ) 》 和 David Beazley 的 《Python 参考 手册 (第 4 版 ，》 是 
这 个 领域 中 最 好 的 两 本 书 ， 但 是 他 们 也 总 说 “Python 对 象 模型 ”。 维 基 百 
科 中 对 象 模型 的 第 一 个 定义 是 : 计算 机 编程 语言 中 对 象 的 属性 。 这 正好 
是 “Python 数据 模型 ?所 要 描述 的 概念 。 我 在 本 书 中 一 直 都 会 用 “数据 模 

型 ”这 个 词 ， 首 先是 因为 在 Python 文档 里 对 这 个 词 有 偏爱 ， 另 外 一 个 原 


Ale Python 语言 言 参 考 手 册 中 与 这 里 讨论 的 内 容 最 相关 的 一 章 的 标题 就 
是 “数据 模型 


魔术 方法 


在 Ruby 中 也 有 类 似 “ 符 殊 方 法 EAS, 但 是 Ruby 社区 称 之 为 魔术 方 
法 ”， 而 实际 上 Python 社区 里 也 有 不 少 人 用 的 是 后 者 。 而 我 恰恰 认为 “ 特 
殊 方法 "是 “魔术 方法 ”的 对 立 面 。 Python 和 Ruby 都 利用 了 这 个 概念 来 提 
供 丰 富 的 元 对 象 协议 ， 这 不 是 魔术 ， 而 是 让 语言 的 用 户 和 核心 开发 者 拥 
有 并 使 用 同样 的 工具 。 


考虑 一 下 JavaScript, TOLLE tsk S ° JavaScript 中 的 对 象 有 不 透 
明 的 魔术 般 的 特性 ， 而 你 无 法 在 自 定 义 的 对 象 中 模拟 这 些 行为 。 比 如 在 
JavaScript 1.8.5 中 ， 用 户 的 自 定义 对 象 不 能 有 只 读 属 性 ， 然 而 不 少 
JavaScript 的 内 置 对 象 却 可 以 有 。 因 此 在 JavaScript 中 ， 只 读 属 性 是 “ 魔 
术 ” 般 的 存在 ， 对 于 普通 的 JavaScript 用 户 而 言 ， 它 就 像 超 能 力 一 样 。 
2009 年 推出 的 ECMAScript 5.1 才 让 用 户 可 以 定义 只 读 属性 。JavaScript 
中 跟 元 对 象 协 议 有 关 的 部 分 一 直 在 进化 ， 但 由 于 历史 原因 ， 这 方面 它 还 
是 赶不上 Python 和 Ruby ° 


元 对 象 


The Art of the Metaobject Protocal (AMOP) 是 我 最 喜欢 的 计算 机 图 书 的 
标题 。 客 观 来 说 ， 元 对 象 协议 这 个 词 对 我 们 学 习 Python 数据 模型 是 有 帮 
助 的。 元 对 象 所 指 的 是 那些 对 建构 语言 本 身 来 讲 很 重要 的 对 象 ， 以 此 为 

前 提 ， 协 议 也 可 以 看 作 接口 。 也 就 是 说 ， 元 对 象 协议 是 对 象 模型 的 同 义 
词 ， 它 们 的 意思 都 是 构建 核心 语言 的 API 。 


一 套 丰 富 的 元 对 象 协议 能 让 我 们 对 语言 进行 扩展 ， 让 它 文 持 新 的 编程 范 
式 。AMOP 的 第 一 作者 Gregor Kiczales 后 来 成 为 面向 方面 编程 的 先驱 ， 
他 写 出 了 一 个 Java 扩展 叫 AspectJ]， 用 来 实现 他 对 面向 方面 编程 的 理 

A e EXE Python 这 样 的 动态 语言 里 ， 更 容易 实现 面 同方 面 编程 。 现 在 
已 经 有 几 个 Python 框架 在 做 这 件 事情 了 ， 其 中 最 重要 的 是 
zope.interface (http://docs.zope.org/zope.interface/) 。 第 11 章 的 延 
伸 阅 读 里 会 谈 到 它 。 


第 二 部 分 “数据 结构 


第 2 章 序列 构成 的 数组 


你 可 能 注意 到 了 ， 之 前 提 人 到 的 儿 个 操作 可 以 无 硅 列 地 应 用 于 文本 、 列表 
和 表格 上 。 我 们 把 文本 、 列 表 和 表格 叫 作 数据 火车 .……FOR 命令 通常 能 
作用 于 数据 火车 上 。” 


Geurts ` Meertens 和 Pemberton 
ABC Programmer's Handbook 


Leo Geurts, Lambert Meertens, and Steven Pemberton, ABC Programmer's Handbook, p. 8. 


在 创造 Python LART, Guido 曾 为 ABC 语言 贡献 过 代码 。ABC 语言 是 一 个 致 
力 于 为 初学 者 设计 编程 环境 的 长 达 10 年 的 研究 项 目 ， 其 中 很 多 点 子 在 现在 
看 来 都 很 有 Python 风格 ， 序 列 的 泛 型 操作 、 内 置 的 元 组 和 映射 类 型 、 用 缩 进 
来 架构 的 源码 、 无 需 变量 声明 的 强 类 型 ， 等 等 。Python 对 开发 者 如 此 友好 ， 
根源 就 在 这 里 。 


Python 也 从 ABC 列 数 据 这 一 特点 。 不 管 
是 哪 种 数据 结构 ， 字 符 串 、 列 表 、 字 节 序 列 、 数 组 、XML 元 素 ， 抑 或 是 数 
据 库 查询 结果 ， 它们 都 共用 一 矢 丰 富 的 操作 : IAL > HA» HER, aot 


接 。 


0 中 的 不 同 序 列 类 型 ， 不 但 能 让 我 们 避免 重新 发 明 轮子 ， 它 们 
的 API 还 能 帮助 我 们 把 自己 定义 的 API 设计 得 跟 原 生 的 序列 一 样 ， 或 者 是 跟 
未 来 可 能 出 现 的 序列 类 型 保持 兼容 。 


本 章 讨 论 的 内 容 几 乎 可 以 应 用 到 所 有 的 序列 类 型 上 ， 从 我 们 熟悉 的 list, 

到 Python 3 中 特有 的 str 和 bytes。 “我 还 会 特别 提 到 跟 列 表 、 元 组 、 数 组 
以 及 队列 有 关 的 话题 。 但 是 Unicode 字符 串 和 字 节 序列 这 方面 的 内 容 被 放 在 
了 第 4 章 。 另 外 这 里 讨 ? 仑 的 数据 结构 都 是 Python 中 现成 可 用 的 ， 如 果 你 想 知 
道 怎样 创建 自己 的 序列 类 型 ， 那 得 等 到 第 10 e 


2.1 内 置 序列 类 型 概览 
Python 标准 库 用 C 实现 了 丰富 的 序列 类 型 ， 列 举 如 下 。 
容器 序列 


list ` tuple Ñ collections. deque 这 些 序 列 能 存放 不 同类 型 的 
数据 。 


扁平 序列 


str ` bytes ` bytearray ` memoryview 和 array.array， 这 类 序 
列 只 能 容纳 一 种 类 型 。 
容器 序列 存放 的 是 它们 所 包含 的 任意 类 型 的 对 象 的 引用 ， 而 扁平 序列 里 存放 
的 是 值 而 不 是 引用 。 换 句 话说 ， 局 平 序列 其 实 是 一 段 连 续 的 内 存 空 间 。 由 此 
可 见 扁平 序列 其 实 更 加 紧凑 ， 但 是 它 里 面 只 能 存放 诸如 字符 、 字 和 数值 这 
种 基础 类 型 。 
序列 类 型 还 能 按照 能 否 被 修改 来 分 类 。 
可 变 序列 


list、bytearray 、array.array 、 collections,.,deque 和 
memoryview ° 


不 可 变 序列 
tuple ` str 和 bytes。 


图 2-1 显示 了 可 变 序 列 (MutableSequence) 和 不 可 变 序列 

(Sequence) 的 差异 ， 同 时 也 能 看 出 前 者 从 后 者 那里 继承 了 一 些 方法 。 虽 
然 内 置 的 序列 类 型 并 不 是 直接 从 Sequence 和 MutableSequence 这 两 个 
HERES (Abstract Base Class, ABC) 继承 而 来 的 ， 但 是 了 解 这 些 基 类 可 以 
帮助 我 们 总 结 出 那些 完整 的 序列 类 型 包含 了 哪些 功能 。 


MutableSequence 
setitem 
! __delitem__ 
__getitem_ 


insert 


lterable = append 


reverse 
extend 
pop 
remove 
_iadd _ 


__reversed | 
index 
count 


图 2-1: 这 个 UML 类 图 列举 了 collections.abc 中 的 几 个 类 (BREE 
边 ， 箭 头 从 子 类 指向 超 类 ， 斜 体 名 称 代表 抽象 类 和 抽象 方法 ) 


通过 记 住 这 些 类 的 共有 特性 ， 把 可 变 与 不 可 变 序 列 或 是 容 回 与 性 平 序列 的 概 
念 融会 贯通 ， 在 探索 并 学 习 新 的 序列 类 型 时 ， 你 会 更 加 得 心 应 手 。 


最 重要 也 最 基础 的 序列 类 型 应 该 束 是 列表 (list) T ° list 是 一 个 可 变 序 
列 ， 并 且 能 同时 存放 不 同类 型 的 元 素 。 作 为 这 本 书 的 读者 ， 我 想 你 应 该 对 它 
很 了 解 了 ， 因 此 让 我 们 直接 开始 讨论 列表 推导 (list comprehension) 吧 。 列 
表 推 导 是 一 种 构建 列表 的 方法 ， 它 异常 强大 ， 然 而 由 于 相关 的 句法 比较 星 
淮 ， 人 们 往往 不 愿意 去 用 它 。 掌 握 列 表 推 导 还 可 以 为 我 们 打开 生成 器 表达 式 
(generator expression) 的 大 门 ， 后 者 具有 生成 各 种 类 型 的 元 素 并 用 它们 来 填 
充 序 列 的 功能 。 下 一 节 就 来 看 看 这 两 个 概念 。 


2.2 ”列表 推导 和 生成 器 表达 式 

列表 推导 是 构建 列表 (List) 的 快捷 方式 ， 而 生成 器 表达 式 则 可 以 用 来 创 
建 其 他 任何 类 型 的 序列 。 如 果 你 的 代码 里 并 不 经 常 使 用 它们 ， 那 么 很 可 能 你 
错过 了 许多 写 出 可 读 性 更 好 且 更 高 效 的 代码 的 机 会 。 


ea mi a IAE TEE, RIEME 
L 小 ?5 


~I 很 多 Python 程序 员 都 把 列表 推导 (list comprehension) 简称 为 
listcomps， 生 成 器 表达 式 (generator expression) 出 称 为 genexps。 我 有 
时 也 会 这 么 用 。 

2.2.1 列表 推导 和 可 读 性 

先 来 个 小 测试 ， 你 觉得 示例 2-1 和 示例 2-2 中 的 代码 ， 哪 个 更 容易 读 懂 ? 


示例 2-1 把 一 个 字符 串 变 成 Unicode 码 位 的 列表 


>>> symbols = '$¢£¥€a' 

>>> codes = 

>>> for symbol in symbols: 
codes.append(ord(symbol1) ) 


>>> codes 
[36, 162, 163, 165, 8364, 164] 


示例 2-2 ”把 字 符 串 变 成 Unicode 码 位 的 另外 一 种 写法 


>>> symbols = '$¢£¥€a' 
>>> codes = [ord(symbol) for symbol in symbols] 


>>> codes 
[36, 162, 163, 165, 8364, 164] 


虽说 任何 学 过 一 点 Python 的 人 应 该 部 能 看 慌 示 例 2-1， 但 是 我 觉得 如 果 学 会 
了 列表 推导 的 话 ， 示 例 2-2 读 起 来 更 方便 ， 因 为 这 段 代 码 的 功能 从 字面 上 束 
能 轻松 地 看 出 来 。 


for 循环 可 以 胜任 很 多 任务 : 蜗 历 一 个 序列 以 求 得 总 数 或 挑 出 某 个 特定 的 元 
素 、 用 来 计算 总 和 或 是 平均 数 ， 还 有 其 他 任何 你 想 做 的 事情 。 在 示例 2-1 的 
代码 里 ， 它 被 用 来 新 建 一 个 列表 。 


一 方面 ， 列 表 推导 也 可 能 被 滥用 。 以 前 看 到 过 有 的 Python 代码 用 列表 推导 
来 重复 获取 一 个 函数 的 副作用 。 通 种 的 原则 是 ， 只 用 列表 推导 来 创建 新 的 列 
表 ， 并 且 尽 量 保持 简短 。 如 采 列 表 推 导 的 代码 超过 了 两 行 ， 你 可 能 就 要 考虑 
征 不 是 得 用 for 循环 重 写 了 。 就 跟 写 文章 一 样 ， 并 没有 什么 硬性 的 规则 ， 这 
个 度 得 你 自己 把 握 。 


A 句法 提示 


Python 会 忽略 代码 里 [1> {} 和 () 中 的 换行 ， 因 此 如 采 你 的 代码 里 有 
多 行 的 列表 、 列表 推导 、 生 成 侨 表 达 式 、 字 典 这 一 类 的 ， 可 以 省 略 不 太 
好 看 的 续 行 符 \。 


列表 推导 不 会 再 有 变量 泄漏 的 问题 


Python 2.x 中 ， 在 列表 推导 中 for 关键 词 之 后 的 赋值 操作 可 能 会 影响 列 
表 推 导 上 下 文中 的 同名 变量 。 像 下 面 这 个 Python 2.7 控制 台 对 话 : 


Python 2.7.6 (default, Mar 22 2014, 22:59:38) 

[GCC 4.8.2] on linux2 

Type "help", "copyright", "credits" or "license" for more 
information. 

>>> x = 'my precious' 


>>> dummy = [x for x in 'ABC'] 
>>> X 
he! 


如 你 所 见 ，x 原本 的 值 被 取代 了 ， 但 是 这 种 情况 在 Python 3 中 是 不 会 出 
现 的 。 


列表 推导 、 生 成 器 表达 式 ， 以 及 同 它们 很 相似 的 集合 (set) 推导 和 字 
典 (dict) 推导 ， 在 Python 3 aba SA CH ab EAL, DIREZ 

似 的 。 表 达 式 内 部 的 变量 和 赋值 只 在 局 部 起 作用 ， 表 达 式 的 上 下 文 里 的 
同名 变量 还 可 以 被 正 第 引用 ， 局 部 变量 并 不 会 影响 到 它们 。 


这 是 Python 3 代码 : 


>>> X = 'ABC' 

>>> dummy = [ord(x) for x in x] 
>>> x @ 

"ABC' 


>>> dummy @ 
[65, 66, 67] 
>>> 


O x 的 值 被 保留 了 。 

@ 列表 推导 也 创建 了 正确 的 列表 。 
列表 推导 可 以 帮助 我 们 把 一 个 序列 或 是 其 他 可 迭代 类 型 中 的 元 素 过 滤 或 是 加 
工 ， 然 后 再 新 建 一 个 列表 。Python 内 置 的 filter 和 map 函数 组 合 起 来 也 
能 达到 这 一 效果 ， 但 是 可 读 性 上 打 了 不 小 的 折扣 。 
2.2.2 ”列表 推导 同 filter 和 map 的 比较 


Filter 和 map 合 起 来 能 做 的 事情 ， 列 表 推 导 也 可 以 做 ， 而 且 还 不 需要 借助 
难以 理解 和 阅读 的 Lambda 表达 式 。 详 见 示 例 2-3 ° 


示例 2-3 ”用 列表 推导 和 map/filter 组 合 来 创建 同样 的 表单 


>>> symbols = '$¢£¥€a' 

>>> beyond_ascii = [ord(s) for s in symbols if ord(s) > 127] 
>>> beyond_ascii 

[162, 163, 165, 8364, 164] 


>>> beyond_ascii = list(filter(lambda c: c > 127, map(ord, symbols) )) 
>>> beyond_ascii 
[162, 163, 165, 8364, 164] 


我 原 以 为 map/filter 组 合 起 来 用 要 比 列 表 推 导 快 一 些 ，Alex Martelli 却说 
不 一 是 至 少 在 上 面 这 个 例子 中 不 一 定 。 在 本 书 的 代码 仓库 中 有 名 为 02- 


array-seq/listcomp_speed.py 的 脚本 ， 代 码 中 有 这 两 个 方法 的 效率 的 比较 。 


第 5 章 会 更 详细 地 讨论 map 和 filter。 下 面 就 来 看 看 如 何 用 列表 推导 来 计 
两 个 或 以 上 的 列表 中 的 元 素 对 构成 元 组 ， 这 些 元 组 构成 的 列表 
Bie # Re 


2.2.3 FJL 
QUAN Prat, FAA ere SY AEA EY BARS AY AY FILIE ° FE 


儿 积 是 一 个 列表 ， 列 表 里 的 元 素 是 由 输入 的 可 迭代 类 型 的 元 素 对 构成 的 元 
组 ， 因 此 第 卡 儿 积 列表 的 长 度 等 于 输入 变量 的 长 度 的 乘积 ， 如 图 2-2 所 示 。 


S 
[ 4 ， os o. & | 
[A, [As , Ro. AO, A% ， 
R K, Ka, KO, Ko, Ka , 
Q] Qe, ele Oc. Qe] 
RxS 


图 2-2: 含有 4 种 花色 和 3 种 牌 面 的 列表 的 笛 卡 儿 积 ， 结 果 是 一 个 包含 12 个 
元 素 的 列表 


如 有 果 你 需要 一 个 列表 ， 列 表 里 是 3 PARRA TW, BRR TERA 2 个 
HE, ANG 2-4 用 列表 推导 算出 了 这 个 列表 ， 列 表 里 有 6 种 组 合 。 


示例 2-4 ”使 用 列表 推导 计算 稍 卡 儿 积 


>>> colors = ['black', 'white'] 
>>> sizes = ['S', 'M', 'L' 
>>> tshirts = [(color, size) for color in colors for size in sizes] @ 
>>> tshirts 
[('black', 'S'), ('black', 'M'), ('black', 'L'), ('white', 'S'), 
L") 


(‘white', 'M'), ('white', ' 
>>> for color in colors: @ 


')] 


for size in sizes: 
print((color, size)) 


('black', 'S') 
('black', 'M') 
('black', 'L') 
('white', 'S') 
('white', 'M') 
('white', 'L') 
>>> tshirts = [(color, size) for size in sizes © 


Kaa for color in colors] 

>>> tshirts 
[('black', 'S'), ('white', 'S'), ('black', 'M'), ('white', 'M'), 
('black', 'L'), ('white', 'L')] 


@ 这 里 得 到 的 结 采 是 先 以 颜色 排列 ， 再 以 尺码 排列 。 


四 注意 ， 这 里 两 个 循环 的 峙 套 关 系 和 上 面 列表 推导 中 for 从 句 的 先后 顺序 
一 样 。 

© 如 采 想 依照 完 尺 码 后 颜色 的 顺序 来 排列 ， 只 需要 调整 从 句 的 顺序 。 我 在 这 
里 插入 了 一 个 换行 符 ， 这 样 顺序 安排 就 更 明显 了 。 


在 第 1 章 的 示例 1-1 中 ， 有 下 面 这 样 一 段 程序 ， 它 的 作用 是 生成 一 个 按 花 色 
分 组 的 52 张 牌 的 列表 ， 其 中 每 个 花色 各 有 13 张 不 同 点 数 的 牌 。 


self._cards = [Card(rank, suit) for suit in self.suits 


for rank in self.ranks] 


列表 推导 的 作用 只 有 一 个 : ERIR ° WIA ERRERA, AE as 
表达 式 就 派 上 了 用 场 。 下 一 市 就 是 对 生成 器 表达 式 的 一 个 简单 介绍 ， 其 中 可 
以 看 到 如 何 用 它 生 成 列表 以 外 的 序列 类 型 。 


2.2.4 生成 器 表达 式 

虽然 也 可 以 用 列表 推导 来 初始 化 元 组 、 数 组 或 其 他 序列 类 型 ， 但 是 生成 器 表 
达 式 是 更 好 的 选择 。 这 是 因为 生成 器 表达 式 背 后 遵守 了 迷人 代 器 协议 ， 可 以 逐 
个 地 产 出 元 素 ， 而 不 是 先 建立 一 个 完整 的 列表 ， 然 后 再 把 这 个 列表 传递 到 某 
个 构造 函数 里 。 前 面 那 种 方式 显然 能 够 站 省 内 存 。 

生成 器 表达 式 的 语法 跟 列 表 推 导 差 不 多 ， 只 不 过 把 方 括号 换 成 圆 括号 而 已 。 


示例 2-5 展示 了 如 何 用 生成 器 表达 式 建立 元 组 和 数组 。 


示例 2-5 用 生成 器 表达 式 初始 化 元 组 和 数组 


>>> symbols = '$¢£¥€a' 
>>> tuple(ord(symbol) for symbol in symbols) @ 
(36, 162, 163, 165, 8364, 164) 


>>> import array 
>>> array.array('I', (ord(symbol) for symbol in symbols)) @ 
array('I', [36, 162, 163, 165, 8364, 164]) 


@ 如 有 果 生 成 器 表达 式 是 一 个 函数 调用 过 程 中 的 唯一 参数 ， 那 么 不 需要 额外 再 
用 括号 把 它 围 起 来 。 


@array 的 构造 方法 需要 两 个 参数 ， 因 此 括号 是 必需 的 。array 构造 方法 
et 0 0 0 
细 讨 论 。 


示例 2-6 则 是 利用 生成 器 表达 式 实现 了 一 个 笛 卡 儿 积 ， 用 以 打印 出 上 文中 我 
们 提 到 过 的 工 他 家 的 2 种 颜色 和 3 种 凡 码 的 所 有 组 合 。 与 示例 2-4 不 同 的 

征 ， 用 到 生成 器 表达 式 之 后 ， 内 存 里 不 会 留 下 一 个 有 6 个 组 合 的 列表 ， 因 为 
生成 大 表达 式 会 在 每 次 For 循环 运行 时 才 生 成 一 个 组 合 。 如 果 要 计算 两 个 各 
有 1000 个 元 素 的 列表 的 稍 卡 儿 积 ， 生 成 玲 表 达 式 就 可 以 帮忙 省 掉 运 行 For 
循环 的 开销 ， 即 一 个 含有 100 万 个 元 素 的 列表 。 


示例 2-6 ”使 用 生成 器 表达 式 计算 笛 卡 儿 积 


> 


>>> colors = ['black', 'white'] 

>>> sizes = ['S', 'M', 'L'] 

>>> for tshirt in ('%s %s' % (c, s) for c in colors for s in sizes): @ 
print(tshirt) 


A 器 表 达 式 逐个 产 出 元 素 ， 从 来 不 会 一 次 性 产 出 一 个 含有 6 个 工 恤 样式 
| 


第 14 章 会 专门 讲 到 生成 器 的 工作 原理 。 这 里 只 是 简单 看 看 如 何 用 生成 器 来 
初始 化 除 列 表 之 外 的 序列 ， 以 及 如 何 用 它 来 避免 额外 的 内 存 占用 。 


接 下 来 看 看 Python 中 的 另外 一 个 很 重要 的 序列 类 型 : 元 组 (tuple) 


2.3 ”元 组 不 仅仅 是 不 可 变 的 列表 


有 些 Python 入 门 ] 教 程 把 元 组 称 为 “不 可 变 列表 *”， 然 而 这 并 没有 完全 概括 元 组 
的 特点 。 除 了 用 作 不 可 变 的 列表 ， 它 还 可 以 用 于 没有 字段 名 的 记录 。 鉴 于 后 
者 音 币 被 忽略 ， 我 们 移 来 看 看 元 组 作为 记录 的 功用 。 


2.3.1 元 组 和 记录 


元 组 其 实 是 对 数据 的 记录 : 元 组 中 的 每 个 元 素 都 存放 了 记录 中 一 个 字段 的 数 
据 ， 外 加 这 个 字段 的 位 置 。 正 是 这 个 位 置信 息 给 数据 赋予 了 意义 。 


如 果 只 把 元 组 理解 为 不 可 变 的 列表 ， 那 其 他 信息 一 一 它 所 含有 的 元 素 的 总 数 
a 似乎 束 变 得 可 有 可 无 。 但 是 如 果 把 元 组 当 作 一 些 字段 的 集 
， 那 么 数量 和 位 置信 息 就 变 得 非常 重要 了 。 


示例 2-7 中 的 元 组 就 被 当 作 记录 加 以 利用 。 如 果 在 任何 的 表达 式 里 我 们 在 元 
seep eee 这 些 元 素 所 携带 的 信息 就 会 丢失 ， 因 为 这 些 信息 是 跟 它 们 
JO gs 


示例 2-7 把 元 组 用 作 记 录 


>>> lax_coordinates = (33.9425, -118.408056) @ 
>>> city, year, pop, chg, area = ('Tokyo', 2003, 32450, 0.66, 8014) @ 
>>> traveler_ids = [('USA', '31195855'), ('BRA', 'CE342567'), © 
(ESP! 'XDA205856' )] 
>>> for Passare in sorted(traveler_ids): @ 
print('%s/%s' % passport) © 


BRA/CE342567 

ESP/XDA205856 

USA/31195855 

>>> for country, _ in traveler_ids: © 
print(country) 


USA 
BRA 
ESP 


@ 洛杉矶 国际 机 场 的 经 纬度 。 


@ 东京 市 的 一 些 信息 : 市 名 、 年 份 、 人 口 〈 单 位: BA) 、 人 口 变化 ( 单 
fe Ht) AMO Ue TER) 


© 一 个 元 组 列表 ， 元 组 的 形式 为 (country_code， 
passport_number ° 


O TARIEF, passport 变量 被 绑 定 到 每 个 元 组 上 。 
O % 格式 运算 符 能 被 匹配 到 对 应 的 元 组 元 素 上 。 


O for 循环 可 以 分 别提 取 元 组 里 的 元 隶 ， 也 叫 作 拆 包 (unpacking) 。 因 为 
元 组 中 第 二 个 元 素 对 我 们 没有 什么 用 ， 所 以 它 赋 值 给 ”” 占 位 符 。 


拆 包 让 元 组 可 以 完美 地 被 当 作 记录 来 使 用 ， 这 也 是 下 一 节 的 话题 。 
2.3.2 THARE, 


示例 2-7 中 ， 我 们 把 元 组 ('Tokyo', 2003, 32450, 0.66, 8014) 里 
的 元 素 分 别 赋 值 给 变量 city` year `pop` chg 和 area， 而 这 所 有 的 赋 
值 我 们 只 用 一 行 声明 就 写 完了 。 同 样 ， 在 后 面 一 行 中 ， 一 个 % 运 算 符 就 把 
passport 元 组 里 的 元 素 对 应 到 了 print 函数 的 格式 字符 串 空 档 中 。 这 两 
个 都 是 对 元 组 拆 包 的 应 用 。 


a 元 组 拆 包 可 以 应 用 到 任何 可 和 迭代 对 象 上 ， 唯 一 的 硬性 要 求 是 ， 被 
可 送 代 对 象 中 的 元 素数 量 必须 要 跟 接 受 这 些 元 素 的 元 组 的 空 档 数 一 致 。 
除非 我 们 用 * 来 表示 忽略 多 余 的 元 素 ， 在 “用 * 来 处 理 多 余 的 元 素 ” 一 市 
里 ， 我 会 讲 到 它 的 具体 用 法 。Python 爱好 者 们 很 喜欢 用 元 组 拆 包 这 个 说 
法 ， 但 是 可 迭代 元 素 拆 包 这 个 表达 也 慢 慢 流行 了 起 来 ， 比 如 *PEP 3132 
一 Extended Iterable Unpacking” 的 标题 就 是 这 么 用 的 。 


最 好 辨认 的 元 组 拆 包 形 式 就 是 平行 赋值 ， 也 就 是 说 把 一 个 可 迭代 对 象 里 的 元 
素 ， 一 并 赋值 到 由 对 应 的 变量 组 成 的 元 组 中 。 就 像 下 面 这 段 代 码 : 


àl 


>>> lax_coordinates = (33.9425, -118.408056) 

>>> latitude, longitude = lax_coordinates # 元 组 拆 包 
>>> latitude 

33.9425 


>>> longitude 
-118 . 408056 


另外 一 个 很 优雅 的 写法 当 属 不 使 用 中 间 变 量 交 换 两 个 变量 的 值 : 


>>> b, a=a, b 


还 可 以 用 * 运算 符 把 一 个 可 迭代 对 象 拆 开 作为 函数 的 参数 : 


divmod(20, 8) 
4) 

t = (20, 8) 
divmod(*t) 


4) 

quotient, remainder = divmod(*t) 
quotient, remainder 

4) 


下 面 是 另 一 个 例子 ， 这 里 元 组 拆 包 的 用 法 则 是 让 一 个 函数 可 以 用 元 组 的 形式 
返回 多 个 值 ， 然后 泗 用 画 数 的 代码 就 E 轻 松 地 接受 这 些 返 回 值 。 比 如 
os.path.split() 函数 就 会 返回 以 路 径 和 最 后 一 个 文件 名 组 成 的 元 组 
(path, last_part): 


>>> import os 
>>> _, filename = os.path.split('/home/luciano/.ssh/idrsa.pub' ) 


>>> filename 
"idrsa.pub' 


在 进行 拆 包 的 时 候 ， 我 们 不 总 是 对 元 组 里 所 有 的 数据 都 感 兴趣 ，_ 占 位 符 能 
帮助 处 理 这 种 情况 ， 上 面 这 段 代 码 也 展示 了 它 的 用 法 。 


Be 如 果 做 的 是 国际 化 软件 ， 那 么 _ 可 能 就 不 是 一 个 理想 的 占 位 符 
因为 它 也 是 gettext ,gettext KAHI EHZ, gettext 模块 的 文 
档 里 提 到 了 这 一 点 。 在 其 他 情况 下 ，_ 会 是 一 个 很 好 的 占 位 符 。 


在 元 组 拆 包 中 使 用 * 也 可 以 帮助 我 们 把 注意 力 集中 在 元 组 的 部 分 
TLR ° 


用 * 来 处 理 剩 下 的 元 素 


在 Python 中， 函数 用 *args 来 获取 不 确定 数量 的 参数 算是 一 种 经 典 写法 


于 是 Python 3 里 ， 这 个 概念 被 扩展 到 了 平行 赋值 中 : 


>>> b, *rest = range(5) 


a, 
>>> a, b, rest 
(0, 1, [2, 3, 4]) 
>>> a, b, *rest = range(3) 
>>> a, b, rest 
(0, 1, [2]) 


>>> a, b, *rest = range(2) 
>>> a, b, rest 


(©, 1, []) 
ETTR, SAREREA, BERART AHE 


>>> a, *body, c, d = range(5) 
>>> a, body, c, d 


(0, [1, 2], 3, 4) 
>>> *head, b, c, d = range(5) 
>>> head, b, c, d 
(LO, 1], 2, 3, 4) 


Fy IPTC AR LILA SRAM ABE, Bite BT LAI ERE e 

2.3.3 RETARA 

fesc FATIH CA ST UNEREN, Fld (a, b, (c, d))° RZAD 
TCA ERE A BIA TRA SS ARARE, Python 就 可 以 作出 正确 的 对 
应 。 示 例 2-8 HEN RE TCZAADE ELA IAB ° 


示例 2-8 FAKE TEAR RAR ALZA RE 


metro_areas = [ 


('Tokyo', 'JP', 36.933, (35.689722,139.691667)), # @ 

('Delhi NCR', 'IN', 21.935, (28.613889, 77.208889)), 
('Mexico City', 'MX', 20.142, (19.433333, -99.133333)), 
('New York- Newark’, "us', 20.104, (40.808611, -74.020386)), 
(' 


Sao Paulo', 'BR', 19.649, (-23.547778, -46.635833)), 
] 


print('{:15} | {:^9} | {:49}'.format('', 'lat.', '‘long.')) 
fmt = '{:15} | {:9.4f} | {:9.4F}' 
for name, cc, pop, (latitude, longitude) in metro_areas: #@ 
if longitude <= 0: #® 
print(fmt.format(name, latitude, longitude) ) 


@ 每 个 元 组 内 有 4 个 元 素 ， 其 中 最 后 一 个 元 素 是 一 对 坐标 。 


人 百 一 个 元 素 拆 包 到 由 变量 构成 的 元 组 里 ， 这 样 就 获取 
小 ” 


© if longitude <= 0: 这 个 条 件 判断 把 输出 限制 在 西半球 的 城市 。 


示例 2-8 的 输出 是 这 样 的 ; 


lat. 
19.4333 


long. 


Mexico City -99 ,1333 


| | 
| | 

New York-Newark | 40.8086 | -74.0204 
| | 


Sao Paul -23.5478 -46.6358 


BA 在 Python 3 之 前 ， 元 组 可 以 作为 形 参 放 在 函数 声明 中 ， 例 如 def 
fn(a，(b，c)，d):。 然 而 Python 3 不 再 支持 这 种 格式 ， 具 体 原因 见 
于 “PEP 3113—Removal of Tuple Parameter Unpacking” ° 需要 和 弄 清楚 的 

这 个 改变 对 函数 调用 者 并 没有 影响 ， 它 改变 的 是 某 些 函数 的 声明 方 
6 


元 组 已 经 设计 得 很 好 用 了 ， 但 作为 记录 来 用 的 话 ， 还 是 少 了 一 个 功能 : 我 们 
时 常会 需要 给 记录 中 的 字段 命名 。namedtuple 画 数 的 出 现 帮 有 我 们 解决 了 这 
个 问题 。 


2.3.4 ”具名 元 组 


collections.namedtuple 是 一 个 工厂 函数 ， 它 可 以 用 来 构建 一 个 带 字 
段 名 的 元 组 和 一 个 有 和 名字 的 类 一 一 这 个 带 名 字 的 类 对 调试 程序 有 很 大 帮助 。 


AI 用 namedtuple 构建 的 类 的 实例 所 消耗 的 内 存 跟 元 组 是 一 样 的 ， 
因为 字段 名 都 被 存在 对 应 的 类 里 面 。 这 个 实例 跟 普 通 的 对 象 实例 比 起 来 
也 要 小 一 些 ， 因 为 Python 不 会 用 _ dict_ _ 来 存放 这 些 实例 的 属性 。 


在 第 1 章 的 示例 1-1 中 是 这 样 新 建 Card 类 的 : 


Card = collections.namedtuple('Card', ['rank', 'suit']) 


示例 2-9 展示 了 如 何 用 具名 元 组 来 记录 一 个 城市 的 信息 。 
示例 2-9 定义 和 使 用 具名 元 组 


>>> from collections import namedtuple 

>>> City = namedtuple('City', 'name country population coordinates') @ 
>>> tokyo = City('Tokyo', 'JP', 36.933, (35.689722, 139.691667)) @ 
>>> tokyo 

City(name='Tokyo', country='JP', population=36.933, coordinates= 


(35.689722, 

139.691667) ) 

>>> tokyo.population © 
36.933 

>>> tokyo.coordinates 
(35.689722, 139.691667) 
>>> tokyo[1] 

"JP! 


@ 创建 一 个 具名 元 组 需要 两 个 参数 ， 一 个 是 类 名 ， 另 一 个 是 类 的 各 个 字段 的 
BT? 后 者 可 以 是 由 数 个 字符 串 组 战 的 可 迁 代 对 象 ， 或 者 是 由 空 SHE aD PTT AS 
字段 名 组 成 的 字符 串 。 


O 存放 在 对 应 字段 里 的 数据 要 以 一 串 参 数 的 形式 传 入 到 构造 函数 中 (注意 ， 
元 组 的 构造 画 数 却 只 接受 单一 的 可 迭代 对 象 ) 。 


© 你 可 以 通过 字段 名 或 者 位 置 来 获取 一 个 字段 的 信息 。 


除了 从 普通 元 组 那里 继承 来 的 属性 之 外 ， 有 具名 元 组 还 有 一 些 自己 专 有 的 属 
性 。 示 例 2-10 中 就 展示 了 几 个 最 有 用 的 ，_fields 类 属性 、 类 方法 
_make(iterable) 和 实例 方法 _asdict()。 


示例 2-10 具名 元 组 的 属性 和 方法 (接续 前 一 个 示例 ) 


>>> City. fields @ 
('name', 'country', 'population', "coordinates ) 
>>> LatLong = namedtuple('LatLong', 'lat long') 
>>> delhi_data = ('Delhi NCR', 'IN', 21.935, LatLong(28.613889, 
77.208889) ) 
>>> delhi = City._make(delhi_data) @ 
>>> delhi._asdict() ® 
OrderedDict([('name', 'Delhi NCR'), ('country', 'IN'), ('population', 
21.935), ('coordinates', LatLong(lat=28.613889, long=77.208889) )]) 
>>> for key, value in delhi._asdict().items(): 
print(key + ':', value) 


name: Delhi NCR 

country: IN 

population: 21.935 

coordinates: LatLong(lat=28.613889, long=77.208889) 
>>> 


@ fields 属性 是 一 个 包含 这 个 类 所 有 字段 名 称 的 元 组 。 


@ 用 _make( ) 通过 接受 一 个 可 迭代 对 象 来 生成 这 个 类 的 一 个 实例 ， 它 的 作 
用 跟 City(*delhi_data) 是 一 样 的 。 


© asdict() 把 具名 元 组 以 collections.OrderedDict 的 形式 返回 ， 
我 们 可 以 利用 它 来 把 元 组 里 的 信息 友好 地 呈现 出 来 。 


现在 我 们 知道 了 ， 元 组 是 一 种 很 强大 的 可 以 当 作 记录 来 用 的 数据 类 型 。 它 的 
第 二 个 角色 则 是 充当 一 个 不 可 变 的 列表 。 下 面 束 来 看 看 它 的 第 二 重 功能 。 


2.3.5 ”作为 不 可 变 列表 的 元 组 


如 果 要 把 元 组 当 作 列表 来 用 的 话 ， 最 好 先 了 解 一 下 它们 的 相似 度 如 何 。 在 表 
2-1 中 可 以 清楚 地 看 到 ， 除 了 跟 增 减 元 素 相 关 的 方法 之 外 ， 元 组 支持 列表 的 
其 他 所 有 方法 。 还 有 一 个 例外 ， 元 组 没有 __reversed 方法， 但 是 这 个 
方法 只 是 个 优化 而 已 ，reversed(my_tuple) 这 个 用 法 在 没有 
”reversed_ _ 的 情况 下 也 是 合法 的 。 


列表 或 元 组 的 方法 和 属性 (那些 由 object 类 支持 的 方法 没有 列 出 


s.append(e) 


s.clear() 


s.__delitem_(p) 把 位 于 p 的 元 素 删 除 


ale 


ERAT it 追加 给 


s.extend(it) 


s[p]， 获 取 位 置 p 的 元 素 


s.__getitem_(p) 


1 找到 元 素 e 第 一 次 出 现 的 位 置 


s.index(e) 


TME p 之 前 插入 元 素 e 


s.insert(p, e) 


s.__getnewargs__() -f t pickle 中 支持 更 加 优化 的 序列 化 


ia 获取 s HA as 
{i len(s), 元 素 的 数量 


n 个 s 的 重复 拼接 


s.pop([p]) ° 


LF p 的 元 素 ， 并 返回 它 的 值 


就 地 把 s 的 元 素 倒 序 排列 


s.__setitem_(p, 
e) 


返回 s 的 倒序 迭代 器 


把 元 素 e 放 在 位 置 


p i | 


s.sort([key], és Le ee 可 选 的 参数 有 键 (key) 和 是 


[reverse] ) 否 倒序 ( reverse) 


* 反问 运算 符 在 第 13 章 中 介绍 。 


每 个 Python 程序 员 都 知道 序列 可 以 用 s[a:b] 的 形式 切片 ， 但 是 关于 切 
片 ， 我 还 想 说 说 它 的 一 些 不 太 为 人 所 知 的 方面 。 


24 切片 


在 Python 里 ， 像 列表 (list) 、 元 组 (tuple) MFP (str) 这 类 序 
列 类 型 都 文 持 切 片 操作 ， 但 是 实际 上 切片 操作 比 人 们 所 想象 的 要 强大 很 多 。 


一 节 主 要 讨论 的 是 这 些 高 级 切片 形式 的 用 法 ， 它 们 的 实现 方法 则 会 在 第 10 
m 个 自 定 义 类 里 提 到 。 这 么 做 主要 是 为 了 符合 这 本 书 的 哲学 : 先 讲 用 
法 ， 第 四 部 分 中 再 来 讲 如 何 创建 新 类 。 


2.4.1 为 什么 切片 和 区 间 会 忽略 最 后 一 个 元 素 


在 切片 和 区 间 操 作 里 不 包含 区 间 范 围 的 最 后 一 个 元 素 是 Python 的 风格 ， 这 个 
ee Python ` C 和 其 他 语言 里 以 0 作为 起 始 下 标的 传统 。 ees 
l 


。 当 只 有 最 后 一 个 位 置信 息 时 ， 我 们 也 可 以 快速 看 出 切片 和 区 间 里 有 几 个 
元 素 : range(3) Ñ my_list[:3] 都 返回 3 个 元 素 。 


。 当 起 止 位 置信 息 都 可 见 时 ， 我 们 可 以 快速 计算 出 切片 和 区 间 的 长 度 ， 用 
后 一 个 数 减 去 第 一 个 下 标 (stop - start) 即 可 。 


° 这 样 做 也 计 我 们 可 以 利用 任意 一 个 下 标 来 把 序列 2 分 割 成 不 重合 的 两 部 
分 ， 只 要 写成 my_list[:x] 和 my_list[x:] 就 可 以 了 ， 如 下 所 示 。 


>>> 1 = [10, 20, 30, 40, 50, 60] 
>>> 1[:2] # 在 下 标 2 的 地 方 分 知 
[10, 20] 
>>> 1[2:] 


[30, 40, 50, 60] 
>>> 1[:3] # 在 下 标 3 的 地 方 分 fl 
[10, 20, 30] 


>>> 1[3:] 
[40, 50, 60] 


计算 机 科学 家 Edsger W. Dijkstra 对 这 一 风格 的 解释 应 该 是 最 好 的 ， 详 见 "“ 延 
伸 阅 读 ” 中 给 出 的 最 后 一 个 参考 资料 。 


接 下 来 进一步 看 看 Python 解释 器 是 如 何 理 解 切 片 操作 的 。 
2.4.2 ”对 对 象 进行 切片 
一 个 众所周知 的 秘密 是 ， 我 们 还 可 以 用 s[a:b:c] 的 形式 对 s 在 a 和 b 之 


EIDA c 为 间隔 取 值 。c 的 值 还 可 以 为 负 ， 负 值 意味 着 反 向 取 值 。 下 面 的 3 个 
例子 更 直观 些 : 


另 一 个 例子 是 在 第 1 章 中 用 deck[12: :13] 的 形式 在 未 洗 过 的 牌 里 把 每 种 
花色 的 A 拿 出 来 : 


>>> deck[12::13] 
[Card(rank='A', suit='spades'), Card(rank='A', suit='diamonds'), 
Card(rank='A', suit='clubs'), Card(rank='A', suit='hearts')] 


a:b:c 这 种 用 法 只 能 作为 索引 或 者 下 标 用 在 [] 中 来 返回 一 个 切片 对 象 : 
slice(a, b, c)° 在 10.4.1 节 中 会 WE, 对 seq[start:stop:step] 


进行 求 值 的 时 候 ， _ (slice(start, 
stop, step)) ° 就 算 你 还 不 会 自 定 又 序列 类型 了 解 一 下 切片 对 象 也 是 有 
好 处 的 。 例如 你 可 以 给 切片 命名 ， 就 像 电 子 表格 软件 里 给 单元 格 区 域 取 名 字 


比如 ， 要 解析 示例 2-11 中 所 示 的 纯 文 本 文件 ， 这 时 使 用 有 名 字 的 切片 比 用 硬 
编码 的 数字 区 间 要 方便 得 多 ， 注 意 示 例 里 的 for 循环 的 可 读 性 有 多 强 。 


示例 2-11 纯 文本 文件 形式 的 收据 以 一 行 字符 串 的 形式 被 解析 


invoice = """ 


Pimoroni PiBrella 

6mm Tactile Switch x20 
Panavise Jr. - PV-201 
PiTFT Mini Kit 320x240 


= slice(0, 6) 

DESCRIPTION = slice(6, 40) 

UNIT_PRICE = slice(40, 52) 

QUANTITY = slice(52, 55) 

ITEM_TOTAL = slice(55, None) 

line_items = invoice.split('\n')[2:] 

for item in line_items: 
print(item[UNIT_PRICE], item[DESCRIPTION] ) 


$17.50 Pimoroni PiBrella 

$4.95 6mm Tactile Switch x20 
$28.00 Panavise Jr. - PV-201 
$34.95 PiTFT Mini Kit 320x240 


在 10.4 方 还 有 更 多 机 会 来 了 解 切 片 (slice) 对 象 。 如 果 从 Python 用 户 的 
角度 出 发 ， 切 片 还 有 个 两 个 额外 的 功能 ， 多 维 切片 和 省 上 略 表示 法 (...) 。 


2.4.3 ”多 维 切 片 和 省 略 


[] 运算 符 里 还 可 以 使 用 以 逗号 分 开 的 多 个 索引 或 者 是 切片 ， 外 部 库 NumPy 
里 束 用 到 了 这 个 特性 ， 二 维 的 numpy. i 就 可 以 用 a[fi，j] 这 种 形 

式 来 获取 ， 抑 或 是 用 a[m:n，k:1] 的 方式 来 得 到 二 维 切片 。 稍 后 的 示例 2- 

22 会 展示 这 个 用 法 。 要 正确 处 理 这 种 [] 运算 符 的 话 ， 对 象 的 特殊 方法 

_ getitem 和 setitem 需要 以 元 组 的 形式 来 接收 a[i，j] 中 的 

索引 。 也 就 是 说 ， 如 果 要 得 到 ar[i，j] 的 值 ，Python 会 调用 

a. getitem ((i, J))° 


Python 内 置 的 序列 类 型 都 是 一 维 的 ， 因 此 它们 只 支持 单一 的 索引 ， 成 对 出 现 
的 索引 是 没有 用 的 。 


省 略 (ellipsis) 的 正确 书写 方法 是 三 个 英语 句号 (...) ， 而 不 是 Unicdoe 
oe U+2026 表示 的 半 个 省 略 号 (...) 。 省 略 在 Python 解析 器 眼 里 是 一 个 符 
， 而 实际 上 它 是 Ellipsis 对 象 的 别名 ， 而 Ellipsis WRX ellipsis 


类 的 单一 实例 。: 它 可 以 当 作 切 片 规范 的 一 部 分 ， 也 可 以 用 在 函数 的 参数 清 
单 中 ， 比 如 f(a，...，Zz), Xali:...]° Æ NumPy , ... 用 作 多 维 
数组 切片 的 快捷 方式 。 如 果 x 是 四 维 数 组 ， 那 么 x[i, ...] 就 是 x[i, 

zo oi, 1] 的 缩写 。 如 有 果 想 了 解 更 多 ， 请 参见 “Tentative NumPy Tutorial” ° 


2 是 的 ， 你 没 看 错 ，ellipsis 是 类 名 ， 全 小 写 ， 而 它 的 内 置 实例 写作 El1ipsis。 这 其 实 跟 bool 
是 小 写 ， 但 是 它 的 两 个 实例 写作 True 和 False 异曲同工 。 


在 写 这 本 书 的 时 候 ， 我 还 没有 发 现在 Python 的 标准 库 里 有 任何 Ellipsis 
或 者 是 多 维 索引 的 用 法 。 如 果 你 知道 ， 请 告诉 我 。 这 些 句 法 上 的 特性 主要 是 
为 了 支持 用 户 自 定义 类 或 者 扩展 ， 比 如 NumPy 就 是 个 例子 。 


除了 用 来 提取 序列 里 的 内 容 ， 切 片 还 可 以 用 来 就 地 修改 可 变 序列 ， 也 就 是 说 
修改 的 时 候 不 需要 重新 组 建 序列 。 


24.4 ”给 切片 赋值 

如 果 把 切片 放 在 赋值 语句 的 左边 ， 或 把 它 作 为 del 操作 的 对 象 ， 我 们 就 可 以 
对 序列 进行 嫁接 、 切 除 或 就 地 修改 操作 。 通 过 下 面 这 几 个 例子 ， 你 应 该 就 能 
体会 到 这 些 操 作 的 强大 功能 : 


>>> 1 = list(range(10)) 


7, 8, 9] 
1[2:5] = [20, 30] 
1 
1, 20, 30, 5, 6, 7, 8, 9] 
del 1[5:7] 
1 
1, 20, 30, 5, 8, 9] 
1[3::2] = [11, 22] 
1 


1, 20, 11, 5, 22, 9] 
1[2:5] = 100 @ 

Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
TypeError: can only assign an iterable 
>>> 1[2:5] = [100] 

>>> 1 
[0, 1, 100, 22, 9] 


@ 如 采 赋 值 的 对 象 是 一 个 切片 ， 那 么 赋值 语句 的 右 侧 必须 是 个 可 迭代 对 象 。 
即便 只 有 单独 一 个 值 ， 也 要 把 它 转换 成 可 迭代 的 序列 。 


序列 的 拼接 操作 可 谓 是 众所周知 ， 任 何 一 本 Python 入 门 教材 都 会 介绍 + 和 * 
的 用 法 ， 但 是 在 这 些 用 法 的 背后 还 有 一 些 可 能 该 角 视 的 细节 。 下 面 就 看 看 
这 两 种 操作 。 


2.5 ”对 序列 使 用 + 和 * 


Python 程序 员 会 默认 序列 是 支持 + 和 * 操作 的 。 通 常 + 号 两 侧 的 序列 由 相 
同类 型 的 数据 所 构成 ， 在 拼接 的 过 程 中 ， 两 个 被 操作 的 序列 都 不 会 被 修改 ， 
Python 会 新 建 一 个 包含 同样 类 型 数据 的 序列 来 作为 拼接 的 结果 。 


如 果 想 要 把 一 个 序列 复制 几 份 然后 再 拼接 起 来 ， 更 快捷 的 做 法 是 把 这 个 序列 
乘 以 一 个 整数 。 同 样 ， 这 个 操作 会 产生 一 个 新 序列 : 


[1, 2, 3, 1, 2, 3, 1, 2, 3, 1, 2, 3, 1, 2, 3] 
>>> 5 * 'abcd' 
"abcdabcdabcdabcdabcd' 


+ 和 * 都 遵循 这 个 规律 ， 不 修改 原 有 的 操作 对 象 ， 而 是 构建 一 个 全 新 的 序 
Pje 


By 如 果 在 a * _n 这 个 语句 中 ， 序 列 a 里 的 元 素 是 对 其 他 可 变 对 象 
的 引用 的 话 ， 你 就 需要 格外 注意 了 ， 因 为 这 个 式 子 的 结果 可 能 会 出 平 意 
料 。 比 如 ,你 想 用 my_list = [[]] * 3 来 初始 化 一 个 由 列表 组 成 的 
列表 ， 但 是 你 得 到 的 列表 里 包含 的 3 个 元 素 其 实 是 3 个 引用 ， 而 且 这 3 
个 引用 指 癌 的 都 是 同一 个 列表 。 这 可 能 不 是 你 想 要 的 效果 。 


下 面 来 看 看 如 何 用 * 来 初始 化 一 个 由 列表 组 成 的 列表 。 

建立 由 列表 组 成 的 列表 

有 时 我 们 会 需要 初始 化 一 个 赂 套 着 几 个 列表 的 列表 ， 壁 如 一 个 列表 可 能 需 
用 来 存放 不 同 的 学 生 名 单 ， 或 者 是 一 个 井 字 游戏 板 上 的 一 行 方块 。 想 要 达 
成 这 些 目的 ， 最 好 的 选择 是 使 用 列表 推导 ， 见 示例 2-12。 

3 又 称 过 三 关 ， 是 一 种 在 3x3 的 方块 矩阵 上 进行 的 游戏 。 一 一 译 者 注 


示例 2-12 一 个 包含 3 个 列表 的 列表 ， 山 套 的 3 个 列表 各 自 有 3 个 元 素 
来 代表 井 字 游戏 的 一 行 方块 


>>> board = [['_'] * 3 for i in range(3)] 


ER a KDS 1 1 


y 'X'], or 1 1 


O 建立 一 个 包含 3 个 列表 的 列表 ， 被 包含 的 3 个 列表 各 和 目 有 3 个 元 素 。 打 印 
IX MREINZ ° 


四 把 第 工行 第 2 列 的 元 素 标记 为 X， 再 打印 出 这 个 列表 。 


和 
et 日 


示例 2-13 含有 3 个 指向 同一 对 象 的 引用 的 列表 是 毫 无 用 处 的 


>>> weird_board = [['_'] * 3]* 3@ 
>>> weird_board 
iSt mee meen | ea) ee 
>>> weird_board[1] [2] 
>>> weird_board 


HE esey "O Ty [ey KAG 'O'], pot, to 'o']] 


ty ly [7 Eey '—']] 
'0' @ 


了 


@ 外 面 的 列表 其 实 包含 3 个 指向 同一 个 列表 的 引用 。 当 我 们 不 做 修改 的 时 
候 ， 看 起 来 都 还 好 。 


@@ 一 旦 我 们 试图 标记 第 1 行 第 2 列 的 元 素 ， 就 立马 暴露 了 列表 内 的 3 个 引用 
指向 同一 个 对 象 的 事实 。 


示例 2-13 犯 的 错误 本 质 上 跟 下 面 的 代码 犯 的 错误 一 样 : 


for i in range(3): 


board.append(row) @ 


@ 追加 同一 个 行 对 象 (row) 3 次 到 游戏 板 (board) 。 
相反 ， 示 例 2-12 中 的 方法 等 同 于 这 样 做 : 


>>> board = [] 
>>> for i in range(3): 
row=['_'] *3 #0 


board.append(row) 


>>> board 
1 1 Li 1 


— 7 一 7 "ly [ 这 
>>> board[2][0] = 'X' 
>>> board #@ 

[['_', ray a [ty ae aa ['X', Me) '—']] 


E A, 作为 新 的 一 行 (row) 追加 到 游戏 板 
board) 。 


@ 正如 我 们 所 期 待 的 ， 只 有 第 2 行 的 元 素 被 修改 。 


A 如 采 你 觉得 这 一 下 里 所 说 的 问题 及 其 对 应 的 解决 方法 都 有 点 云 里 
没关系 。 第 8 章 里 我 们 会 详细 说 明 引 用 和 可 变 对 象 背 后 的 原理 和 
ZU o 


我 们 一 直 在 说 + A *, (Bea T PAA += 和 *=。 随 着 目标 序列 的 可 变 
性 的 变化 ， 这 个 两 个 运算 符 的 结果 也 大 相 径 庭 。 下 一 市 就 来 详细 讨论 。 


2.6 ”序列 的 增 量 赋值 


增 量 赋值 运算 符 += 和 *= 的 表现 取决 于 它们 的 第 一 个 操作 对 象 。 简 单 起 
见 ， 我 们 把 讨论 集中 在 增 量 加 法 (+=) 上 ， 但 是 这 些 概念 对 *= 和 其 他 增 量 
运算 符 来 说 都 是 一 样 的 。 


+= 背后 的 特殊 方法 是 __iadd (用 于 “就 地 加 法 ”) 。 但 是 如 果 一 个 类 没 
有 实现 这 个 方法 的 话 ，Python 会 退 一 步调 用 __add ° 考虑 下 面 这 个 简单 
的 表达 式 : 


>>> a t= b 


如 果 a ZM iadd 方法， 就 会 调用 这 个 方法 。 同 时 对 可 变 序列 〈 例 
如 1ist、bytearray 和 array.array) 来 说 ，a 会 就 地 改动 ， 就 像 调用 
了 a.extend(b) 一 样 。 但 是 如 果 a 没 有 实现 iadd Wik, a += b 
这 个 表达 式 的 效果 就 变 得 跟 a = a + b 一 样 了 : 首先 计算 a + b， 得 到 一 
个 新 的 对 象 ， 然 后 赋值 给 a。 也 就 是 说 ， 在 这 个 表达 式 中 ， 变 量 名 会 不 会 被 
关联 到 新 的 对 象 ， 完 全 取决 于 这 个 类 型 有 没有 实现 __iadd_ ”这 个 方法 。 


总 体 来 讲 ， 可 变 序列 一 般 都 实现 了 __iadd “方法 ， 因 此 += 是 就 地 加 法 。 
而 不 可 变 序列 根本 就 不 文 持 这 个 操作 ， 对 这 个 方法 的 实现 也 就 无 从 谈 起 。 


上 面 所 说 的 这 些 关 于 += 的 概念 也 适用 于 *=， 不 同 的 是 ， 后 者 相对 应 的 是 
imul 。 关 于 ”iadd 和 imul ， 第 13 草 中 会 再 次 提 到 。 


接 下 来 有 个 小 例子 ， 展 示 的 是 *= 在 可 变 和 不 可 变 序 列 上 的 作用 : 


>>> 1 = [1, 2, 3] 
>>> id(1) 
4311953800 @ 
SSS] 4S2 

>>> 1 

[1, 2, 3, 1, 2, 3] 
>>> id(1) 


4311953800 @ 
>>> t = (1, 2, 3) 
>>> id(t) 
4312681568 © 
>>> t *= 2 

>>> id(t) 
4301348296 @ 


@ 刚 开 始 时 列表 的 ID。 

@ 运用 增 量 乘法 后 ， 列 表 的 ID 没 变 ， 新 元 素 追 加 到 列表 上 。 

© 元 组 最 开始 的 ID。 

@ 运用 增 量 乘法 后 ， 新 的 元 组 被 创建 

对 不 可 变 序 列 进行 重复 拼接 操作 的 话 ， 效 率 会 很 低 ， 因 为 每 次 都 有 一 个 新 对 
a 系 来 对 象 中 的 元 素 先 复 制 到 新 的 对 象 里 ， 然 后 再 追加 新 


istr 是 一 个 例外 ， 因 为 对 字符 串 做 += 实在 是 太 普 遍 了 ， 所 以 CPython 对 它 做 了 优化 。 为 str 初始 
化 内 存 的 时 候 ， 程 序 会 为 它 留 出 额外 的 可 扩展 空间 ， 因 此 进行 增 量 操 作 的 时 候 ， 并 不 会 涉及 复制 原 
有 字符 串 到 新 位 置 这 类 操作 。 


我 们 已 经 认识 了 += 的 一 般 用 法 ， 下 面 来 看 一 个 有 意思 的 边界 情况 。 这 个 例 
子 可 以 说 是 突出 展示 了 “不 可 变性 ”对 于 元 组 来 说 到 底 意 味 着 什么 。 


一 个 关于 += 的 迹 是 


完 下 面 的 代码 ， 然 后 回答 这 个 问题 : 示例 2-14 中 的 两 个 表达 式 到 底 会 产生 
vert ”回答 之 前 不 要 用 控制 台 去 运行 这 两 个 式 子 。 


5 感谢 Leonardo Rochael 在 2013 年 的 Python 巴西 会 议 上 提 到 这 个 谜 题 。 


示例 2-14 — Sik 


>>> t = (1, 2, [30, 40]) 
>>> t[2] += [50, 60] 


到 底 会 发 生 下 面 4 种 情况 中 的 哪 一 种 ? 

a. t Baw (1, 2, [30, 40, 50, 60])° 

b. AA tuple 不 文 持 对 它 的 元 素 赋 值 ， 所 以 会 抛 出 TypeError 异常 。 

c. 以 上 两 个 都 不 是 。 

d.a 和 bb 都 是 对 的 。 

我 刚 看 到 这 个 问题 的 时 候 ， 异 常 确 定 地 选择 了 b， 但 其 实 答案 是 d， 也 就 是 
说 a 和 bb 都 是 对 的 ! 示例 2-15 是 运行 这 段 代码 得 到 的 结果 ， 用 的 Python 版 
本 是 3.4， 但 是 在 2.7 中 结果 也 一 样 。8 


6 有 读者 提出 ， 如 果 写 成 t[2] .extend([50，609] ) 就 能 避免 这 个 异常 。 确 实 是 这 样 ， 
是 为 了 展示 这 种 奇怪 的 现象 而 专门 写 的 。 


oOo 


aoe 


日 这 个 例子 


示例 2-15 没 人 料 到 的 结果 : t[2] 被 改动 了 ， 但 是 也 有 异常 抛 出 


>>> t = (1, 2, [30, 40]) 
>>> t[2] += [50, 60] 
Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
TypeError: 'tuple' object does not support item assignment 
>>> t 
(1, 2, [30, 40, 50, 60]) 


Python Tutor 是 一 个 对 Python 运行 原理 进行 可 视 化 分 析 的 工具 。 图 2-3 里 是 
两 张 截图 ， 分 别 代表 示例 2-15 F t 的 初始 和 最 终 状 态 。 


t = (1, 2, [30, 40]) Frames Objects 


= t[2] += [50, 60] Global frame tuple ist 
a] 0 1 2 0 1 
ma > 
Edit code t 1| 2| 47| 30 |40 
<< First <Back | Step 2 of 2 | Forward > Last >> 


t = (1, 2, [30, 40]) Frames Objects 
=$ 2 t[2] += [50, 68] Global frame tuple ist 
; 本 一 | 1 2 3 
Edit code t 1/2 30 | 40 | 50 | 60 


<< First <Back | Program terminated 
TypeError: ‘tuple’ object does not support item assignment 


2 that has just executed 
= next line t 


图 2-3: 元 组 赋值 之 谜 的 初始 和 最 终 状 态 (图 表 由 Python Tutor 网 站 生成 ) 


下 面 来 看 看 示例 2-16 中 Python 为 表达 式 s[a] += b 生成 的 字 节 码 ， 可 能 
这 个 现象 背后 的 原因 会 变 得 清晰 起 来 。 


示例 2-16 s[a] += b 背后 的 字 节 码 


>>> dis.dis('s[a] += b') 


1 9 LOAD_NAME o(s) 
3 LOAD_NAME 1(a) 
6 DUP_TOP_TWO 
7 BINARY_SUBSCR 
8 LOAD_NAME 2(b) 


11 INPLACE_ADD 

12 ROT_THREE 

13 STORE_SUBSCR © 
14 LOAD_CONST 0(None) 
17 RETURN_VALUE 


@ 将 s[a] 的 值 存 入 TOS (Top Of Stack， 栈 的 顶端 ) 。 


@it# TOS += b。 这 一 步 能 够 完成 ， 是 因为 TOS 指向 的 是 一 个 可 变 对 象 
(也 就 是 示例 2-15 里 的 列表 ) 。 


@s[a] = TOS 赋值 。 这 一 步 失败 ， 是 因为 s 是 不 可 变 的 元 组 (示例 2-15 
中 的 元 组 t) 。 


这 其 实 是 个 非常 罕见 的 边界 情况 ， 在 15 年 的 Python 生涯 中 ， 我 还 没 见 过 谁 
在 这 个 地 方 吃 过 亏 。 


至 此 我 得 到 了 3 个 教训 。 
。 不 要 把 可 变 对 象 放 在 元 组 里 面 。 


。 增 量 赋值 不 是 一 个 原子 操作 。 我 们 刚才 也 看 到 了 ， 它 虽然 抛 出 了 有 弄 利 ， 
但 还 是 完成 了 操作 。 


。 m 的 字 节 码 并 不 难 ， 而 且 它 对 我 们 了 解 代码 背后 的 运行 机 制 很 
助 。 


在 见证 了 + 和 * 的 微妙 之 处 后 ， 我 们 把 话题 转移 到 序列 类 型 的 男 一 个 重要 部 
PEs AT 


2.7 list.sortH#AABAMsorted 


list.sort 方法 会 就 地 排序 列表 ， 也 就 是 说 不 会 把 原 列表 复制 一 份 。 这 也 

是 这 个 方法 的 返回 值 是 None 的 原因 ， 提 醒 你 本 方法 不 会 新 建 一 个 列表 。 在 
这 种 情况 下 返回 None 其 实 是 Python 的 一 个 惯例 : 如 果 一 个 函数 或 者 方法 对 
对 象 进行 的 是 就 地 改动 ， 那 它 就 应 该 返回 None， 好 让 调用 者 知道 传 入 的 参 

数 发 生 了 变动 ， 而 且 并 未 产生 新 的 对 象 。 例 如 ，random.shuffle 函数 也 

遵守 了 这 个 惯例 。 


和 用 返回 None 来 表示 就 地 改动 这 个 惯 倒 有 个 数 端 ， 那 就 是 调用 者 
无 法 将 其 串联 起 来 。 而 返回 一 个 新 对 象 的 方法 (比如 说 str 里 的 所 有 方 
法 ) 则 正好 相反 ， 它 们 可 以 串联 起 来 调用 ， 从 而 形成 连贯 接口 (fluent 
interface) 。 详 情 参 见 维基 百科 中 有 关连 贯 接口 的 讨论 


5 list.sort RMN BAR sor ted， 它 会 新 建 一 个 列表 作为 返回 
值 。 这 个 方法 可 以 接受 任何 形式 的 可 和 欠 代 对 象 作 为 参数 ， 甚 至 包括 不 可 变 序 
列 或 生成 器 〈 见 第 14 章 ) 。 而 不 管 sorted 接受 的 是 怎样 的 参数 ， 它 最 后 
都 会 返回 一 个 列表 。 


不 管 是 1ist .sort 方法 还 是 sorted 函数 ， 都 有 两 个 可 选 的 关键 字 参 数 。 


reverse 


如 果 被 设 定 为 True， 被 排序 的 序列 里 的 元 素 会 以 降序 输出 (也 就 是 说 
把 最 大 值 当 作 最 小 值 来 排序 ) 。 这 个 参数 的 默认 值 是 False。 


key 


一 个 只 有 一 个 参数 的 画 数 ， 这 个 画 数 会 被 用 在 序列 里 的 每 一 个 元 素 上 ， 
所 产生 的 结果 将 是 排序 算法 依赖 的 对 比 关键 字 。 比 如 说 ， 在 对 一 些 字符 惠 排 
序 时 ， 可 以 用 key=str. lower 来 实现 忽略 大 小 写 的 排序 ， 或 者 是 用 
key=len 进行 基于 字符 串 长 度 的 排序 。 这 个 参数 的 默认 值 是 恒 等 画 数 
(identity function) ， 也 就 是 默认 用 元 素 自己 的 值 来 排序 。 


~I 可 选 参数 key 还 可 以 在 内 置 函数 min() 和 max() 中 起 作用 。 另 
外 ， 还 有 些 标 准 库 里 的 函数 也 接受 这 个 参数 ， 像 
itertools.groupby() 和 heapq.nlargest() 等 。 


下 面 通过 几 个 小 例子 来 看 看 这 两 个 函数 和 它们 的 关键 字 参 数 : 7 


“这 几 个 例子 还 说 明了 Python 的 排序 算法 一 一 Timsort 一 一 是 稳定 的 ， 意 思 是 就 算 两 个 元 素 比 不 出 大 
小 ， 在 每 次 排序 的 结果 里 它们 的 相对 位 置 是 固定 的 。Timsort 在 本 章 结尾 的 “杂谈 ”里 会 有 进一步 的 讨 


论 。 


>>> fruits = ['grape', 'raspberry', 'apple', 'banana'] 
>>> sorted(fruits) 

['apple', 'banana', 'grape', 'raspberry' ] 

>>> fruits 

['grape', 'raspberry', ‘apple', 'banana' ] 

>>> sorted(fruits, reverse=True) 

['raspberry', 'grape', 'banana', '‘apple'] 

>>> sorted(fruits, key=len) 


['grape', ‘apple', 'banana', 'raspberry' ] 
>>> sorted(fruits, key=len, reverse=True) 
['raspberry', 'banana', 'grape', 'apple'] 
>>> fruits 


['grape', 'raspberry', ‘apple', 'banana' ] 
>>> fruits.sort() 

>>> fruits 

['apple', 'banana', 'grape', 'raspberry' ] 


@ 者 建 了 一 个 按照 字母 排序 的 字符 串 列 表 。 
@ 原 列 表 并 没有 变化 。 
O 按照 字母 降序 排序 


@ 新 建 一 个 按照 长 度 排序 的 字符 串 列表 。 因 为 这 个 排序 算法 是 稳定 的 ， 
grape 和 apple 的 长 度 都 是 5， 它们 的 相对 位 置 跟 在 原来 的 列表 里 是 一 样 的 。 


O 按照 长 度 降序 排序 的 结果 。 结 果 并 不 是 上 面 那 个 结果 的 完全 翻转 ， 因 为 用 
ion FRIRE, Eie WEKE, grape 和 apple 的 相对 位 置 
会 改变 


O 直到 这 一 步 ， 原 列表 fruits 都 没有 任何 变化 。 
@ 对 原 列 表 就 地 排序 ， 返 回 值 None 会 被 控制 台 忽略 。 
@ 此 时 Fruits 本 身 被 排序 。 


己 排 序 的 序列 可 以 用 来 进行 快速 搜索 ， 而 标准 库 的 bisect 模块 给 我 们 提供 
了 二 分 查找 算法 。 下 一 节 会 详细 讲 这 个 函数 ， 顺 便 还 会 看 看 
bisect.insort 如 何 让 已 排序 的 序列 保持 有 序 。 


2.8 用 bisect 来 管理 已 排序 的 序列 


bisect 模块 包含 两 个 主要 函数 ，bisect 和 insort， 两 个 函数 都 利用 二 
分 查找 算法 来 在 有 序 序 列 中 查找 或 插入 元 素 。 


2.8.1 用 bisect 来 搜索 


bisect(haystack, needle) 在 haystack (FH) 里 搜索 needle 
(ft) 的 位 置 ， 该 位 置 满足 的 条 件 是 ， 把 needle 插入 这 个 位 置 之 后 ， 
haystack 还 能 保持 升序 。 也 就 是 在 说 这 个 函数 返回 的 位 置 前 面 的 值 ， 都 小 
于 或 等 于 needle 的 值 。 其 中 haystack 必须 是 一 个 有 序 的 序列 。 你 可 以 
多 用 bisect(haystack, needle) 查找 位 置 jndex， 再 用 
haystack.insert(index, needle) 来 插入 新 值 。 但 你 也 可 用 insort 
来 一 步 到 位 ， 并 且 后 者 的 速度 更 快 一 些 。 


~I Python 的 高 产 贡献 者 Raymond Hettinger 写 了 一 个 排序 集合 模块 ， 
模块 里 集成 了 bisect 功能 ， 但 是 比 独立 的 bisect 更 易 用 。 


示例 2-17 利用 几 个 精心 挑选 的 needle， 向 我 们 展示 了 bisect 返回 的 不 同 
位 置 值 。 这 段 代码 的 输出 结果 显示 在 图 2-4 中 。 


示例 2-17 在 有 序 序列 中 用 bisect 查找 某 个 元 素 的 插入 位 置 


import bisect 
import sys 


HAYSTACK = [1, 4, 5, 6, 8, 12, 15, 20, 21, 23, 23, 26, 29, 30] 
NEEDLES = [0, 1, 2, 5, 8, 10, 22, 23, 29, 30, 31] 


ROW_FMT = '{0:2d} @ {1:2d} | {2} {0:<2d}' 


def demo(bisect_fn): 
for needle in reversed(NEEDLES): 
position = bisect_fn(HAYSTACK, needle) @ 
offset = position * ' |' © 
print(ROW_FMT.format(needle, position, offset)) © 


if _name == ' | main _': 
if sys.argv[-1] == 'left': @ 
bisect_fn = bisect.bisect_left 
else: 


bisect_fn = bisect.bisect 


print('DEMO:', bisect_fn.__name__) © 
print('haystack ->', ' '.join('%2d' % n for n in HAYSTACK) ) 
demo(bisect_fn) 


@ 用 特定 的 bisect 函数 来 计算 元 素 应 该 出 现 的 位 置 。 


[© 


z 


四 利用 该 位 置 来 算出 需要 几 个 分 隔 符号 
© 把 元 素 和 其 应 该 出 现 的 位 置 打印 出 
O 根据 命令 上 最 后 一 个 参数 来 选用 bisect 函数 。 
@ 把 选 定 的 函数 在 抬头 打印 出 来 。 


党 


E 


02-array-seq/ $ python3 bisect_demo .py 
DEMO: bisect 
haystack -> 8 12 1 
| | 
| | 
| | 
| | 
| 


5 20 2 
| | 
| | 
| | 
| | 
| | 


| 
110 


6 
| 
| 
| 
| 
| 
| 
| 18 


4 5 
| | 
| | 
| | 
| | 
| | 
| | 
| | 
| | 


1 
| 
| 
29 @ 13 | 
| 
| 
| 
| 
| 5 
| 
| 


2 
1 
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0 


图 2-4: 用 bisect HANA 2-17 的 输出 。 每 一 行 以 needle @ 
apa aes 开始 ， 然 后 展示 了 该 元 素 在 原 序 列 


bisect 的 表现 可 以 从 两 个 方面 来 调教 。 


首先 可 以 用 它 的 两 个 可 选 参数 一 -1o 和 hi 一 一 来 缩小 搜寻 的 范围 。1o 的 
WEE ©, hi 的 默认 值 是 序列 的 长 度 ， 即 len() 作用 于 该 序列 的 返回 
值 。 


EK, bisect 函数 其 实 是 bisect_right 函数 的 别名 ， 后 者 还 有 个 姊妹 
RAC bisect_left。 它 们 的 区 别 在 于 ，bisect_left 返回 的 插入 位 置 
是 原 序 列 中 跟 被 插入 元 素 相等 的 元 素 的 位 置 ， 也 就 是 新 元 素 会 被 放置 于 它 相 
等 的 元 素 的 前 面 ， 而 bisect_right 返回 的 则 是 跟 它 相等 的 元 素 之 后 的 位 
置 。 这 个 细微 的 差别 可 能 对 于 整数 序列 来 讲 没 什么 用 ， 但 是 对 于 那些 值 相等 
但 是 形式 不 同 的 数据 类 型 来 讲 ， 结 果 就 不 一 样 了 。 比 如 说 虽然 1 == 1.085 
返回 值 是 True，1 和 1.0 其 实 是 两 个 不 同 的 元 素 。 图 2-5 显示 的 是 用 
bisect_left 来 运行 上 述 示 例 的 结果 。 


02-array-seq/ $ python3 bisect_demo.py left 
DEMO: bisect_left 
haystack -> 1 4 5 6 5 20 21 
31 @ 14 | | 1 | | | | 
| | 1 | | l | 
| | 1 | | | 

| | 1 | | | 

| | 1 | | | 

| | l | 

| | | 18 

| | 

| 


1 
0 


图 2-5: Ħ bisect_left 运行 示例 2-17 得 到 的 结果 ( 跟 图 2-4 对 比 可 以 发 
现 , 值 1、8、23、29 和 30 的 插入 位 置 变 成 了 原 序列 中 这 些 值 的 前 面 ) 


bisect 可 以 用 来 建立 一 个 用 数字 作为 索引 的 查询 表格 ， 比 如 说 把 分 数 和 成 
fi 8 对 应 起 来 ， 见 示例 2-18 ° 


3 成 绩 指 的 是 在 美国 大 学 中 普遍 使 用 的 A~F 字母 成 绩 ，A 表示 优秀 ，F 表示 不 及 格 。 一 一 译 者 注 


DDDDODODO® 


示例 2-18 根据 一 个 分 数 ， 找 到 它 所 对 应 的 成 绩 


>>> def grade(score, breakpoints=[60, 70, 80, 90], grades='FDCBA'): 
: i = bisect.bisect(breakpoints, score) 
return grades[i] 


>>> [grade(score) for score in [33, 99, 77, 70, 89, 90, 100]] 
['F'; 'A', ror; "Cy "Big 'A', 'A'] 


示例 2-18 里 的 代码 来 自 bisect 模块 的 文档 。 文 档 里 列举 了 一 些 利 用 
bisect 的 函数 ， 它 们 可 以 在 很 长 的 有 序 序列 中 作为 Index 的 蔡 代 ， 用 来 
更 快 地 查找 一 个 元 素 的 位 置 。 


这 些 函 数 不 但 可 以 用 于 查找 ， 还 可 以 用 来 向 序列 中 插入 新 元 素 ， 下 面 束 来 看 
看 它们 的 用 法 。 


2.8.2 ”用 bisect .insort 插 入 新 元 素 


排序 很 耗 时 ， 因 此 在 得 到 一 个 有 序 序列 之 后 ， 我 们 最 好 能 够 保持 它 的 有 序 。 
bisect.insort 职 是 为 了 这 个 而 存在 的 。 


insort(seg, item) 把 变量 item 插入 到 序列 seq 中 ， 并 能 保持 seq 的 
升序 顺序 。 详 见 示例 2-19 和 它 在 图 2-6 里 的 输出 。 


示例 2-19 insort 可 以 保持 有 序 序列 的 顺序 


import bisect 
import random 


SIZE=7 


random.seed(1729) 


my_list = [] 

for i in range(SIZE): 
new_item = random. randrange(SIZE*2) 
bisect.insort(my_list, new_item) 
print('%2d ->' % new_item, my_list) 


Q@2-array-seq/ $ python3 bisect_insort.py 


10 -> [10] 

0 -> [@, 10] 

6 -> [0，6，10] 

8 -> [0，6，8，10] 

7 -> [0，6，7，8，10] 

2 -> [0，2，6，7，8，10] 

10 -> [0，2，6，7，8，10，10] 


图 2-6: 示例 2-19 的 输出 


insort 跟 bisect 一样 ， 有 1o 和 hi 两 个 可 选 参数 用 来 控制 查找 的 范 
。 它 也 有 个 变 体 叫 ijnsort_left， 这 个 变 体 在 背后 用 的 是 
bisect_left ° 


目前 所 提 到 的 内 容 都 不 仅仅 是 对 列表 或 者 元 组 有 效 ， 还 可 以 应 用 于 几乎 所 有 
的 序列 类 型 上 。 有 时 候 因 为 列表 实在 是 太 方便 了 ， 所 以 Python 程序 员 可 能 会 
过 度 使 用 它 ， 反 正 我 知道 我 犯 过 这 个 毛病 。 而 如 果 你 只 需要 处 理 数字 列表 的 
数组 可 能 是 个 更 好 的 选择 。 下 面 束 来 讨论 一 些 可 以 替换 列表 的 数据 结 


2.9” 当 列表 不 是 首选 时 


虽然 列表 既 灵 活 义 简单 ， 但 面 对 各 类 需求 时 ， 我 们 可 能 会 有 更 好 的 选择 。 比 
如 ， 要 存放 1000 万 个 浮 点 数 的 话 ， 数 组 (array) 的 效率 要 高 得 多 ， 因 为 

数组 在 背后 存 的 并 不 是 float 对象， 而 是 数字 的 机 顺 翻 译 ， 也 就 是 字 世 表 

述 。 这 一 点 台 跟 C 语言 中 的 数组 一 样 。 再 比如 说 ， 如 果 和 需要 频繁 对 序列 做 先 
进 先 出 的 操作 ，deque ( 双 端 队列 ) 的 速度 应 该 会 更 快 。 


A 如 有 果 在 你 的 代码 里 ， 包 含 操 作 (比如 检查 一 个 元 素 是 否 出 现在 一 
个 集合 中 ) 的 频率 很 高 ， 用 set (RG) 会 更 合适 。set 专 为 检查 元 素 
是否 存在 做 过 优化 。 但 是 它 并 不 是 序列 ， 因 为 set 是 无 序 的 。 第 3 章 会 
详细 讨论 它 。 


本 章 余下 的 内 容 都 是 关于 在 某 些 情况 下 可 以 替换 列表 的 数据 类 型 的 ， 让 我 们 
从 数组 开始 。 


2.9.1 数组 


如 有 果 我 们 需要 一 个 只 包含 数字 的 列表 ， 那 么 array .array kk list 更 高 
效 。 数 组 支持 所 有 跟 可 变 序 列 有 关 的 操作 ， 包 括 .pop、.insert 和 
.extend。 另 外 ， 数 组 还 提供 从 文件 读 取 和 存 入 文件 的 更 快 的 方法 ， 如 
.frombytes 和 .tofile ° 


Python 数组 跟 C 语言 数组 一 样 精 简 。 创 建 数组 需要 一 个 类 型 码 ， 这 个 类 型 码 
用 来 表示 在 底层 的 C 语言 应 该 存放 怎样 的 数据 类 型 。 比 如 b 类 型 码 代 表 的 是 
有 符号 的 字符 (signed char) ， 因 此 array('b') 创建 出 的 数组 就 只 能 
存放 一 个 字 节 大 小 的 整数 ， 范 围 从 -128 到 127， 这 样 在 序列 很 大 的 时 候 ， 我 
a 。 而 且 Python 不 会 允许 你 在 数组 里 存放 除 指 定 类 型 之 外 的 


示例 2-20 展示 了 从 创建 一 个 有 1000 万 个 随机 浮 点 数 的 数组 开始 ， 到 如 何 把 
这 个 数组 存放 到 文件 里 ， 再 到 如 何 从 文件 读 取 这 个 数组 。 


示例 2-20 一 个 浮 点 型 数组 的 创建 、 存 入 文件 和 从 文件 读 取 的 过 程 


>>> from array import array @ 

>>> from random import random 

>>> floats = array('d', (random() for i in range(10**7))) @ 
>>> floats[-1] © 

0.07802343889111107 


>>> fp = open('floats.bin', 'wb') 
>>> floats.tofile(fp) ©@ 

>>> fp.close() 

>>> floats2 = array('d') © 

>>> fp = open('floats.bin', 'rb') 
>>> floats2.fromfile(fp, 10**7) © 
>>> fp.close() 

>>> floats2[-1] @ 
0.07802343889111107 

>>> floats2 == floats © 


True 


@5|A array 类 型 。 


@ 利用 一 个 可 迭代 对 象 来 建立 一 个 双 精 度 浮 点 数组 (类 型 码 是 'd') ， 这 里 
我 们 用 的 可 和 闪 代 对 象 是 一 个 生成 器 表达 式 。 


© 查看 数组 的 最 后 一 个 元 素 。 

@ 把 数组 存 入 一 个 二 进 制 文件 里 。 

O 新 建 一 个 双 精 度 浮 点 空 数组 。 

@ 把 1000 万 个 浮 点 数 从 二 进 制 文件 里 读 取 出 来 。 
@ 查看 新 数组 的 最 后 一 个 元 素 。 

@ 检查 两 个 数组 的 内 容 是 不 是 完全 一 样 。 


从 上 面 的 代码 我 们 能 得 出 结论 ，array ,tofile 和 array.fromfile 用 
起 来 很 简单 。 把 这 段 代 码 跑 一 跑 ， 你 还 会 发 现 它 的 速度 也 很 快 。 一 个 小 试验 
告诉 我 , 用 array .fromfile 从 一 个 二 进 制 文件 里 读 出 1000 万 个 双 精 度 
浮 点 数 只 需要 0.1 秒 ， 这 比 从 文本 文件 里 读 取 的 速度 要 快 60 倍 ， 因 为 后 者 会 
使 用 内 置 的 float 方法 把 每 一 行文 字 转 换 成 浮 点 数 。 另 外 ， 使 用 
array.tofile 写 入 到 二 进 制 文件 ， 比 以 每 行 一 个 浮 点 数 的 方式 把 所 有 数 
字 写 入 到 文本 文件 要 快 7 倍 。 另 外 ，1000 万 个 这 样 的 数 在 二 进 制 文件 里 只 占 
用 80 000 000 CF (每 个 浮 点 数 占 用 8 个 字 和 ， 不 需要 任何 额外 空间 ) ， 
如 果 是 文本 文件 的 话 ， 我 们 需要 181 515 739 SF ° 


a 另外 一 个 快速 序列 化 数字 类 型 的 方法 是 使 用 pickle 模 块 。 
pickle.dump 处 理 浮 点 数组 的 速度 几乎 跟 array.tofile 一 样 快 。 


不 过 前 者 可 以 处 理 几 乎 所 有 的 内 置 数 字 类 型 ， 包 含 复数 、 妖 套 集 合 ， 项 
至 用 户 自 定义 的 类 。 前 提 是 ; OEE fh LE ASAD ° 


还 有 一 些 特殊 的 数字 数组 ， 用 来 表示 二 进 制 数 据 ， 比 如 光栅 图 像 。 里 面 涉及 
的 bytes 和 bytearry 类 型 会 在 第 4 BHR ° 


表 2-2 对 数组 和 列表 的 功能 做 了 一 些 总 结 。 
表 2-2: 列表 和 数组 的 属性 和 方法 (不 包含 过 期 的 数组 方法 以 及 那些 由 对 象 实 


现 的 方法 ) 
atin 


组 内 每 个 元 素 的 字 节 序列 ， 转 换 字 节 序 


= | 
ewo | | 


s.count(e) 


J copy. copy 的 支持 


现 的 次 数 


s.__deepcopy__() 对 copy. deepcopy 的 支持 


es ge 
| [pe 


s.__delitem_(p) 


s.extend(it) 


IAAT R it 里 的 元 素 添 加 到 


s.frombytes(b) JFE 读 出 来 添加 到 尾部 


制 文 件 f 内 含有 机 器 值 读 出 来 添加 到 尾部 ， 最 多 添加 n 


s.fromfile(f, n) 


s.fromlist(1) 将 列表 里 的 元 素 添 加 到 尾部 ， 如 果 其 中 任何 一 个 元 素 导 致 了 
TypeError 异常 ， 那 么 所 有 的 添加 都 会 取消 


s.__getitem_(p) 


i : d | e dii i 


| | 7 
e id 


s.__rmul__(n) n* s， 反 问 重 复 拼 过” 


HRAT 返回 这 个 值 ，p 的 默认 值 是 最 后 一 个 元 素 的 


s.remove(e) 。 第 一 次 出 现 的 e 元 素 


s.reverse() 。 Ld 1 元 素 的 位 置 


+ 


s.__reversed_() l° j MIL z AAT as 


s.__setitem_(p, 
e) 


s.sort([key], 
[revers] ) 


FE ANZA PRA R, JKH 
i J : TAE C 语言 中 的 类 型 


* 第 13 章 会 讲 反 向 运算 符 。 


™ 


从 Python 3.4 开始 ， 数 组 类 型 不 再 支持 诸如 1ist .sort( ) 这 种 就 地 排 
序 方法 。 要 给 数组 排序 的 话 ， 得 用 sorted 函数 新 建 一 个 数组 : 


a = array.array(a.typecode, sorted(a)) 


想 要 在 不 打 乱 次 序 的 情况 下 为 数组 添加 新 的 元 素 ，bisect .insort 还 
是 能 派 上 用 场 (就 像 2.8.2 节 中 所 展示 的 ) 。 


如 果 你 总 是 跟 数 组 打交道 ， 却 没有 听 过 memoryview， 那 就 大 遗憾 了 。 下 面 
就 来 谈 谈 memoryview。 


2.9.2 ”内 存 视图 


memoryview 是 一 个 内 置 类 ， 它 能 让 用 户 在 不 复制 内 容 的 情况 下 操作 同一 个 
数组 的 不 同 切片 。memoryview 的 概念 受到 了 NumPy 的 启发 (参见 2.9.3 
T) ° Travis Oliphant 是 NumPy 的 主要 作者 ， 他 在 回答 “When should a 
memoryview be used?” 这 个 问题 时 是 这 样 说 的 : 


内 存 视 图 其 实 是 泛 化 和 去 数学 化 的 NumPy 数组 。 它 让 你 在 不 需要 复制 

内 容 的 前 提 下 ， 在 数据 结构 之 间 共 享 内 存 。 其 中 数据 结构 可 以 是 任何 形 
式 ， 比 如 PIL 图 片 、SQLite 数据 库 和 NumPy 的 数组 ， 等 等 。 这 个 功能 
在 处 理 大 型 数据 集合 的 时 候 非 常 重要 。 


memoryview.cast 的 概念 跟 数组 模块 类 似 ， 能 用 不 同 的 方式 读 写 同 一 块 内 
存 数据 ， 而 且 内 容 字 市 不 会 随意 移动 。 这 听 上 去 又 跟 C 语言 中 类 型 转换 的 概 
念 差不多 。memoryview.cast 会 把 同一 块 内 存 里 的 内 容 打 包 成 一 个 全 新 的 
memoryview 对 象 给 你 。 


在 示例 2-21 里 ， 我 们 利用 memoryview 精准 地 修改 了 一 个 数组 的 某 个 字 
节 ， 这 个 数组 的 元 素 是 16 位 二 进 制 整数 。 


示例 2-21 通过 改变 数组 中 的 一 个 字 节 来 更 新 数组 里 某 个 元 素 的 值 


numbers = array.array('h', [-2, -1, 0, 1, 2]) 
memv = memoryview(numbers) @ 
len(memv ) 


memv[0] © 


memv_oct = memv.cast('B') © 
memv_oct.tolist() ©@ 
[254, 255, 255, 255, ©, 0, 1, 0, 2, 0] 
>>> memv_oct[5] =4 © 
>>> numbers 
array('h', [-2, -1, 1024, 1, 2]) © 


@ 利用 含有 5 个 短 整 型 有 符号 整数 的 数组 〈 类 型 码 是 'h') 创建 一 个 
memoryview ° 


@ memv 里 的 5 个 元 素 跟 数组 里 的 没有 区 别 。 


© 创建 一 个 memv_oct， 这 一 次 是 把 memv 里 的 内 容 转换 成 !B' 类 型 ， 也 
就 是 无 符号 字符 。 


O 以 列表 的 形式 查看 memv_oct 的 内 容 。 
O 把 位 于 位 置 5 的 字 节 赋值 成 4。 


O 因为 我 们 把 占 2 个 字 万 的 整数 的 高 位 字 节 改 成 y 4， 所 以 这 个 有 符号 整数 
的 值 就 变 成 了 1024 ° 


在 第 4 章 的 示例 4-4 中 ， 我 们 还 可 以 看 到 如 何 利 用 memoryview 和 struct 
来 操作 二 进 制 序列 。 


另外 ， 如 果 利 用 数组 来 做 高 级 的 数字 处 理 是 你 的 日 常 工 作 ， 那 么 NumPy 和 
SciPy 应 该 是 你 的 常用 武器 。 下 面 就 是 对 这 两 个 库 的 简单 介绍 。 


2.9.3 NumPy 和 Scipy 


整 本 书 我 都 在 强调 如 何 最 大 限度 地 利用 Python 标准 库 。 但 是 NumPy 和 
SciPy 的 优秀 让 我 觉得 偶尔 跑 个 题 来 谈 谈 它 们 也 十 很 值得 的 。 


凭借 着 NumPy 和 Scipy 提供 的 高 阶 数组 和 矩阵 操作 ，Python 成 为 科学 计算 
应 用 的 主流 语言 。NumPy 实现 了 多 维 同 质数 组 (homogeneous array) FFE 
阵 ， 这 些 数 据 结构 不 但 能 处 理 数字 ， 还 能 存放 其 他 由 用 户 定 义 的 记录 。 通 过 
NumPy， 用 户 能 对 这 些 数 据 结构 里 的 元 素 进 行 高 效 的 操作 。 


SciPy 是 基于 NumPy 的 另 一 个 库 ， 它 提供 了 很 多 跟 科 学 计算 有 天 的 算法 ， 专 
为 线性 代数 、 数 值 积 分 和 统计 学 而 设计 。SciPy 的 高 效 和 可 靠 性 归功 于 其 背 
后 的 C 和 Fortran 代码 ， 而 这 些 跟 计算 有 关 的 部 分 都 源 自 于 Netlib Æ ° HAJ 
话说 ，SciPy 把 基于 C 和 Fortran 的 工业 级 数学 计算 功能 用 交互 式 且 高 度 抽 象 
的 Python 包装 起 来 ， 让 科学 家 如 鱼 得 水 。 


示例 2-22 是 一 个 很 简短 的 演示 ， 从 中 可 以 完 见 一 些 NumPy 二 维 数 组 的 基本 


操作 。 


示例 2-22 对 numpy.ndarray 的 行 和 列 进行 基本 操作 


>>> import numpy @ 
>>> a = numpy.arange(12) @ 
>>> a 


array([ 0, 1, 2, 3, 4, 5 6, 7, 8, 9, 10, 11]) 
>>> type(a) 

<class 'numpy.ndarray'> 

>>> a.shape © 


(12, ) 

>>> a.shape = 3, 4 @ 

>>> a 

array([[ 9, 1, 2, 83], 
[ 4, 5, 6, 7], 
[ 8, 9, 10, 11]]) 

>>> a[2] © 


array([ 8, 9, 10, 11]) 
>>> a[2, 1] © 
9 
>>> a[:, 1] © 
array([1, 5, 9]) 
>>> a.transpose() © 
array([[ 9, 4, 8], 
1 


了 5, 9], 
[ 2, 6, 10], 
[ 3, 7, 11]]) 


@ 安装 NumPy 之 后 ， 导 入 它 (NumPy 并 不 是 Python 标准 库 的 一 部 分 ) 。 
@ 新 建 一 个 0~11 的 整数 的 numpy .ndarray， 然 后 把 它 打印 出 来 。 
© 看 看 数组 的 维度 ， 它 是 一 个 一 维 的 、 有 12 个 元 素 的 数组 。 


@ 把 数组 变 成 二 维 的 ， 然 后 把 它 打 印 出 来 看 看 。 
O 打印 出 第 2 行 。 

O 打印 第 2 行 第 1 列 的 元 素 。 

O 把 第 1 列 打印 出 来 。 

© 把 行 和 列 交换 ， 就 得 到 了 一 个 新 数组 。 


NumPy 也 可 以 对 numpy.ndarray 中 的 元 素 进 行 抽 象 的 读 取 、 保 存 和 其 他 
操作 : 


>>> import numpy 

>>> floats = numpy.loadtxt('floats-10M-lines.txt') @ 

>>> floats[-3:] @ 

array([ 3016362.69195522, 535281.10514262, 4566560.44373946] ) 
>>> floats *= .5 © 

>>> floats[-3:] 


array([ 1508181.34597761, 267640.55257131, 2283280.22186973]) 
>>> from time import perf_counter as pc @ 

>>> tO = pc(); floats /= 3; pc() - to © 

0.03690556302899495 

>>> numpy.save('floats-10M', floats) © 

>>> floats2 = numpy.load('floats-10M.npy', 'r+') © 

>>> floats2 *= 6 

>>> floats2[-3:] ® 

memmap([3016362.69195522, 535281.10514262, 4566560.44373946]) 


@ 从 文本 文件 里 读 取 1000 万 个 浮 点 数 。 
@ 利用 序列 切片 来 读 取 其 中 的 最 后 3 个 数 。 
© 把 数组 里 的 每 个 数 都 乘 以 0.5， 然 后 再 看 看 最 后 3 个 数 。 


比较 高 的 计时 器 (Python 3.3 及 更 新 的 版 本 中 都 有 这 个 
车 o 


@ 把 每 个 元 素 都 除 以 3， 可 以 看 到 处 理 1000 万 个 浮 点 数 所 需 的 时 间 还 不 足 
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O 把 数组 存 入 后 缀 为 .npy 的 二 进 制 文件 。 


@ 将 上 面 的 数据 导入 到 另外 一 个 数组 里 ， 这 次 load 方法 利用 了 一 种 叫 作 内 
存 映射 的 机 制 ， 它 让 我 们 在 内 存 不 足 的 情况 下 仍然 可 以 对 数组 做 切片 。 


O 把 数组 里 每 个 数 乘 以 6 之 后 ， 再 检视 一 下 数组 的 最 后 3 个 数 。 


人 


NumPy 和 SciPy 的 安装 可 能 会 比较 费劲 。 在 “Installing the SciPy Stack” H 
面 ，SciPy.org 建议 找 一 个 科学 计算 Python 的 分 发 渠道 帮忙 ， 比 如 
Anacoda ` Enthought Canopy、WinPython， 等 等 。 和 常见 的 GNU/Linux 版 
本 的 用 户 应 该 可 以 在 他 们 目 己 的 包 管 理 系 统 中 找到 NumPy 和 SciPy。 例 
如 ， 在 Debian 或 者 Ubuntu 上 面 ， 用 户 可 以 通过 下 面 的 命令 一 键 安 装 : 


$ sudo apt-get install python-numpy python-scipy 


以 上 的 内 容 仅仅 是 九 牛 一 毛 。NumPy 和 SciPy 都 是 异常 强大 的 库 ， 也 是 其 他 
一 些 很 有 用 的 工具 的 基石 。Pandas 和 Blaze 数据 分 析 认 就 以 它们 为 基础 ， 提 


供 了 高 效 的 且 能 存储 非 数值 类 数据 的 数组 类 型 ， 和 读 写 常见 数据 文件 格式 

(例如 csv ` xls ` SQL 转 储 和 HDF5) 的 功能 。 因 此 ， 要 详细 介绍 NumPy 和 
SciPy 的 话 ， 不 写成 几 本 书 是 不 可 能 的 。 昌 然 本 书 不 在 此 列 ， 但 是 如 条 要 对 
Python 的 序列 类 型 做 一 个 概览 ， 翁 怕 没 有 人 能 忽略 NumPy。 


在 介绍 完 扁平 序列 (包括 标准 数组 和 NumPy 数组 ) 之 后 ， 让 我 们 把 目光 投 
[E] Python 中 可 以 取代 列表 的 另外 一 种 数据 结构 : 队列 。 


2.9.4 双向 队列 和 其 他 形式 的 队列 


利用 .append 和 .pop 方法 ， 我 们 可 以 把 列表 当 作 栈 或 者 队列 来 用 ( 比 

W, Æ .append 和 .pop(0) 合 起 来 用 ， 就 能 模拟 队列 的 “先进 先 出 ”的 特 
A) 。 但 是 删除 列表 的 第 一 个 元 素 (抑或 是 在 第 一 个 元 素 之 前 添加 一 个 元 
A) 之 类 的 操作 是 很 耗 时 的 ， 因 为 这 些 操作 会 牵扯 到 移动 列表 里 的 所 有 元 
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collections.deque 类 〈 双 向 队列 ) 是 一 个 线程 安全 、 可 以 快速 从 两 端 

添加 或 者 删除 元 素 的 数据 类 型 。 而 且 如 果 想 要 有 一 种 数据 类 型 来 存放 “最 近 

用 到 的 几 个 元 素 ”，deque 也 是 一 个 很 好 的 选择 。 这 是 因为 在 新 建 一 个 双向 

队列 的 时 候 ， 你 可 以 指定 这 个 队列 的 大 小 ， 如 果 这 个 队列 满员 了 ， 还 可 以 从 

然后 在 尾 端 添加 新 的 元 素 。 示 例 2-23 中 有 几 个 双向 
| 的 典型 操作 。 


示例 2-23 使 用 双向 队列 


>>> from collections import deque 

>>> dq = deque(range(10), maxlen=10) @ 

>>> dq 

deque([0, 1, 2, 3, 4, 5, 6, 7, 8, 9], maxlen=10) 
>>> dq.rotate(3) © 

>>> dq 

deque([7, 8, 9, ©, 1, 2, 3, 4, 5, 6], maxlen=10) 
>>> dq.rotate(-4) 

>>> dq 

deque([1, 2, 3, 4, 5, 6, 7, 8, 9, 0], maxlen=10) 
>>> dq.appendleft(-1) ® 

>>> dq 

deque([-1, 1, 2, 3, 4, 5, 6, 7, 8, 9], maxlen=10) 
>>> dq.extend([11, 22, 33]) @ 

>>> dq 

deque([3, 4, 5, 6, 7, 8, 9, 11, 22, 33], maxlen=10) 
>>> dq.extendleft([10, 20, 30, 40]) © 

>>> dq 

deque([40, 30, 20, 10, 3, 4, 5, 6, 7, 8], maxlen=10) 


@ maxlen 是 一 个 可 选 参数 ， 代 表 这 个 队列 可 以 容纳 的 元 素 的 数量 ， 而 且 一 
旦 设 定 ， 这 个 属性 丈 不 能 修改 了 。 


@ 队列 的 旋转 操作 接受 一 个 参数 n， 当 n > 0 时， 队列 的 最 右边 的 n 个 元 
素 会 被 移动 到 队列 的 左边 。 当 n < 0 时， 最 左边 的 n 个 元 素 会 被 移动 到 右 
o 


© 当 试图 对 一 个 已 满 (len(d) == d.maxlen) 的 队列 做 头 部 添加 操作 的 
时 候 ， 它 尾部 的 元 素 会 被 删除 掉 。 注 意 在 下 一 行 里 ， 元 素 9 被 删除 了 。 


O 在 尾部 添加 3 个 元 素 的 操作 会 挤 掉 -1、1 和 2。 


© extendleft(iter) 方法 会 把 迭代 器 里 的 元 素 逐 个 添加 到 双向 队列 的 左 
边 ， 因 此 迭代 器 里 的 元 素 会 逆序 出 现在 队列 里 。 


Fe 2- 3 总 结 了 列表 和 双向 队列 这 两 个 类 型 的 方法 (object 类 包含 的 方法 除 
外 ) 

双向 队列 实现 了 大 部 分 列表 所 拥有 的 方法 ， 也 有 一 些 额 外 的 符合 自身 设计 的 
方法 ， 比 如 说 popleft 和 rotate。 但 是 为 了 实现 这 些 方法 ， 双 向 队列 也 
付出 了 一 些 代 价 ， 从 队列 中 间 删 除 元 素 的 操作 会 慢 一 些 ， 因 为 它 只 对 在 头 尾 
的 操作 进行 了 优化 。 


append 和 popleft 都 是 原子 操作 ， 也 就 说 是 deque 可 以 在 多 线程 程序 中 
安全 地 当 作 先进 先 出 的 队列 使 用 ， 而 使 用 者 不 需要 担心 资源 锁 的 问题 。 


表 2-3: 列表 和 双向 队列 的 方法 (不 包括 由 对 象 实现 的 方法 ) 
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po [| fee 
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s.sort([key], 
[reverse] ) 


就 地 排序 序列 ， 可 选 参数 有 key 和 reverse 


* 第 13 章 会 讲 反 向 运算 符 。 


#a_list.pop(p) 这 个 操作 只 能 用 于 列表 ， 双 向 队列 的 这 个 方法 不 接收 参数 。 


RT deque 之 外 ， 还 有 些 其 他 的 Python 标准 库 也 有 对 队列 的 实现 。 


queue 


提供 了 同步 (线程 安全 ) 类 Queue、LifoQueue 和 
PriorityQueue, 不 同 的 线程 可 以 利用 这 些 数据 类 型 来 交换 信息 。 这 三 个 
类 的 构造 方法 都 有 一 个 可 选 参数 maxsize， 它 接收 正 整数 作为 输入 值 ， 用 


来 限定 队列 的 大 小 。 但 是 在 满员 的 时 候 ， 这 些 类 不 会 扔 掉 昌 的 元 素来 腾 出 位 
置 。 相 反 ， 如 采 队 列 满 了 ， 它 就 会 被 锁 住 ， 直 到 另外 的 线程 移 除 了 某 个 元 素 
而 腾 出 了 位 置 。 这 一 特性 让 这 些 类 很 适合 用 来 控制 活路 线程 的 数量 。 


multiprocessing 


这 个 包 实 现 了 自己 的 Queue， 它 跟 queue.Queue 类 似 ， 是 设计 给 进 
程 间 通信 用 的 。 同 时 还 有 一 个 专门 的 
multiprocessing.JoinableQueue 类 型 ， 可 以 让 任务 管理 变 得 更 方 
便 。 


asyncio 


Python 3.4 新 提供 的 包 ， 里 面 有 Queue、LifoQueue、 
PriorityQueue 和 JoinableQueue， 这 些 类 受到 queue 和 
multiprocessing 模块 的 影响 ， 但 是 为 异步 编程 里 的 任务 管理 提供 了 专门 
的 便利 。 


heapq 


跟 上 面 三 个 模块 不 同 的 是 ，heapq 没有 队列 类 ， 而 是 提供 了 heappush 
和 heappop 方法 ， 让 用 户 可 以 把 可 变 序列 当 作 堆 队列 或 者 优先 队列 来 使 
用 。 


到 了 这 里 ， 我 们 对 列表 之 外 的 类 的 介绍 也 就 告 一 段落 了 ， 是 时 候 阶 段 性 地 总 
结 一 下 对 序列 类 型 的 探索 了 。 注 意 我 们 还 没有 提 到 str (字符 串 ) 和 二 进 制 
序列 ， 它 们 将 在 第 4 关中 专门 介绍 。 


2.10 ”本 章 小 结 


要 想 写 出 准确 、 高 效 和 地 道 的 Python 代码， 对 标准 库 里 的 序列 类 型 的 掌握 是 
不 可 或 缺 的 。 


Python 序列 类 型 最 常见 的 分 类 就 是 可 变 和 不 可 变 序列 。 但 另外 一 种 分 类 方式 
也 很 有 用 ， 那 束 古 把 它们 分 为 届 平 序列 和 容器 序列 。 前 者 的 体积 更 小 、 速 度 
更 快 而 且 用 起 来 更 简单， 但 是 它 只 能 保存 一 些 原子 性 的 数据 ， 比 如 数字 、 字 
符 和 字 市 。 容 器 序 列 则 比较 灵活 ， 但 是 当 容器 序列 直到 可 变 对 象 时 ， 用 户 就 
需要 格外 小 心 了 ， 因 为 这 种 组 合 时 常会 摘出 一 些 “ 意 外 ”， 特 别 是 带 藤 套 的 数 
据 结 构 出 现时 ， 用 户 要 多 费 一 些 心思 来 保证 代码 的 正确 。 


列表 推导 和 生成 器 表达 式 则 提供 了 灵活 构建 和 初始 化 序列 的 方式 ， 这 两 个 工 
具 都 异常 强大 。 如 采 你 还 不 能 熟练 地 使 用 它们 ， 可 以 专门 花 时 间 练 习 一 下 。 
它们 其 实 不 难 ， 而 且 用 起 来 让 人 上 着 。 


元 组 在 Python 里 扮演 了 两 个 角色 ， 它 既 可 以 用 作 无 名 称 的 字段 的 记录 ， 又 可 
以 看 作 不 可 变 的 列表 。 当 元 组 被 当 作 记录 来 用 的 时 候 ， 拆 包 是 最 安全 可 靠 地 
从 元 组 里 提取 不 同 字 段 信 息 的 方式 。 新 引入 的 * 句法 让 元 组 拆 包 的 便利 性 更 
上 一 层 楼 ， 让 用 户 可 以 选择 性 名 略 不 需要 的 字段 。 具 名 元 组 也 已 经 不 是 一 个 
新 概念 了 ， 但 它 似 乎 没有 受到 应 有 的 重视 。 就 像 普 通 元 组 一 样 ， 具 名 元 组 的 
实例 也 很 节省 空间 ， 但 它 同 时 提供 了 方便 地 通过 名 字 来 获取 元 组 各 个 字段 信 
息 的 方式 ， 另 外 还 有 个 实用 的 ， asdict() 方法 来 把 记录 变 成 
OrderedDict 类 型 。 


Python 里 最 受 欢迎 的 一 个 语言 特性 就 是 序列 切片 ， 而 且 很 多 人 其 实 还 没完 全 
了 解 它 的 强大 之 处 。 比 如 ， 用 户 自 定义 的 序列 类 型 也 可 以 选择 支持 NumPy 
中 的 多 维 切 片 和 省 略 (...) 。 另 外 ， 对 切片 赋值 是 一 个 修改 可 变 序 列 的 捷 


径 


重复 拼接 seq * n 在 正确 使 用 的 前 提 下 ， 能 让 我 们 方便 地 初始 化 含有 不 可 

变 元 素 的 多 维 列表 。 增 量 赋值 += 和 *= 会 区 别 对 待 可 变 和 不 可 变 序列 。 在 

遇 到 不 可 变 序 列 时 ， 这 两 个 操作 会 在 背后 生成 新 的 序列 。 但 如 有 果 被 赋值 的 对 

vena 那么 这 个 序列 会 就 地 修改 一 一 然而 这 也 取决 于 序列 本 身 对 特殊 
法 的 实现 。 


序列 的 sort 方法 和 内 置 的 sorted 函数 虽然 很 灵活 ， 但 是 用 起 来 都 不 难 。 
这 两 个 方法 都 比较 灵活 ， 是 因为 它们 都 接受 一 个 函数 作为 可 选 参数 来 指定 排 
序 算法 如 何 比较 大 小 ， 这 个 参数 就 是 key 参数 。key 还 可 以 被 用 在 min 和 
max 函数 里 。 如 果 在 插入 新 元 素 的 同时 还 想 保持 有 序 序列 的 顺序 ， 那 么 需要 
用 到 bisect.insort。bisect.bisect 的 作用 则 是 快速 查找 。 


除了 列表 和 元 组 ，Python 标准 库 里 还 有 array .array。 男 外 ， 虽 然 NumPy 
和 SciPy 都 不 是 Python 标准 库 的 一 部 分 ， 但 稍微 学 习 一 下 它们 ， 会 让 你 在 处 
理 大 规模 数值 型 数据 时 如 有 神助 。 


本 章 末 尾 介 绍 了 collections.deque 这 个 类 型 ， 它 具有 灵活 多 用 和 线程 


安全 的 特性 。 表 2-3 将 它 和 列表 的 API 做 了 比较 。 本 章 最 后 也 提 及 了 一 些 标 
准 库 中 的 其 他 队列 类 型 的 实现 。 


2.11 ”延伸 阅读 


David Beazley 和 Brian K. Jones 的 《Python Cookbook (3% 3 fig) 中 文 版 》 一 
书 的 第 1 章 “ 数 据 结构 "里 有 很 多 专门 针对 序列 的 小 窍门 。 尤 其 是 “1.11 对 切片 
命名 ”这 一 部 分 ， 从 中 我 学 会 把 切片 赋值 给 变量 以 改善 可 读 性 ， 本 书 的 示例 
2-11 对 此 做 了 说 明 。 


《Python Cookbook ($ 2 hig) 中 文 版 》 用 的 是 Python 2.4， 但 其 中 大 部 分 的 
代码 都 可 以 运行 在 Python 3 中 。 该 书 第 5 章 和 第 6 划 的 大 部 分 内 容 都 是 跟 序 
列 有 关 的 。 该 书 的 编者 有 Alex Martelli » Anna Martelli Ravenscroft 和 David 
Ascher， 另 外 还 有 十 几 位 Python 程序 员 为 内 容 做 出 了 贡献 。 第 3 版 则 是 从 零 
开始 完全 重 写 的 ， 书 的 重点 也 放 在 了 Python 的 语义 上 上， 特别 是 Python 3 市 
来 的 那些 变化 ， 而 不 是 像 第 2 版 那样 把 重点 放 在 如 何 解决 实际 问题 上 。 虽 然 
第 2 版 中 有 些 内 容 已 经 不 是 最 优 解 了 ， 但 是 我 仍然 推荐 把 这 两 个 版 本 都 读 一 
BE o 


Python 官方 网 站 中 的 “Sorting HOW TO” 一 文通 过 几 个 例子 讲解 了 sorted 和 
list.sort 的 高 级 用 法 。 


“PEP 3132 一 Extended Iterable Unpacking” 算 得 上 是 使 用 *extra 句法 进行 平 
行 赋值 的 权威 指南 。 如 果 你 想 舌 探 一 下 Python 本 喘 的 开发 过 程 , “Missing *- 
unpacking generalizations” 是 一 个 bug 追踪 絮 ， 里 面 有 很 多 关于 如 何 更 广泛 地 
使 用 可 迭代 对 象 拆 包 的 讨论 和 提议 。“PEP 448 一 Additional Unpacking 
Generalizations” 就 是 这 些 讨论 的 直接 结果 。 就 在 我 写 这 本 书 的 了 时候 ， 这 些 改 
动 也 许 会 被 集成 在 Python 3.5 F ° 


Eli Bendersky 的 博客 文章 *Less Copies in Python with the Buffer Protocol and 
memoryviews” 里 有 一 些 关 于 memoryview 的 小 教程 。 


市 面 上 关于 NumPy 的 书 多 到 数 不 清 ， 其 中 有 些 书 的 名 字 里 都 不 
A 字 ， 例 如 Wes McKinney 的 《利用 Python 进行 数据 分 析 》 


科学 家 尤其 钟爱 NumPy 和 SciPy 的 强大 以 及 与 Python 的 交互 式 控制 台 的 结 

合 ， 于 是 他 们 专门 开发 了 IPython。IPython 是 Python 自 带 控制 台 的 强大 替代 
品 ， 而 且 它 还 附带 了 图 形 界面 、 内 艇 的 图 表演 染 、 文 学 编程 支持 (代码 和 文 
本 互动 ) 和 PDF 演 染 。 而 这 些 互动 多 媒体 对 话 还 能 以 IPython 记事 本 的 形式 
在 网 络 上 分 享 一 一 详 见 “IPython 记事 本 ”中 的 截屏 和 视频 。IPython 在 2012 年 
非常 流行 ， 背 后 的 开发 者 收 到 了 一 笔 1 150 000 美元 的 捐赠 。 这 笔 来 自 Sloan 
基金 的 捐赠 是 专门 用 来 支持 加 州 大 学 伯克利 分 校 的 开发 者 的 ， 好 让 他 们 能 在 
2013—2014 年 期 间 按 计 划 实 现 IPython 的 扩展 。 


Python 标准 库 里 的 “8.3. collections 一 Container datatypes” 里 有 一 些 关 于 双 癌 
队列 和 其 他 集合 类 型 的 使 用 技巧 。 


Python 里 的 范围 (range) 和 切片 都 不 会 返回 第 二 个 下 标 所 指 的 元 素 ， 
Edsger W. Dijkstra 在 一 个 很 短 的 备忘录 里 为 这 一 惯例 做 了 最 好 的 办 护 。 这 篇 
名 为 “Why Numbering Should Start at Zero” 的 备 环 录 其 实 是 关于 数学 符号 的 ， 
但 是 它 跟 Python 的 天 系 在 于 ，Dijkstra 教授 严肃 义 活 痰 地 解释 了 为 什么 2， 
3，...，12 这 个 序列 应 该 表达 为 2<i < 13。 备 忘 录 对 其 他 所 有 的 表达 习惯 都 
作出 了 反驳 ， 同 时 还 说 明了 为 什么 不 能 让 用 户 自 行 决定 表达 习惯 。 虽 然 文章 
的 标题 是 关于 基于 0 的 下 标 ， 但 是 整 篇 文章 其 实 都 在 说 为 什么 

'ABCDE' [1:3] 的 结果 应 该 是 'BC' 而 不 是 'BCD' ， 以 及 为 什么 2， 
3，...，12 应 该 写作 range(2，13)。 (顺便 说 一 下 ， 这 份 备忘录 是 手写 

, TA a 。 如 果 有 人 就 此 创作 Dijkstra 字体 ， 我 应 该 会 买 一 
分 。 


元 组 的 本 质 


2012 年 ， 我 在 PyCon US 上 贴 了 一 张 天 于 ABC 语言 的 墙报 。Guido 在 开 
创 Python 语言 之 前 曾 做 过 ABC 解释 器 方面 的 工作 ， 因 此 他 也 去 看 了 我 
的 墙报 。 我 们 聊 了 不 少 ， 而 且 都 提 到 了 ABC 里 的 compounds 类 型 。 
compounds 算得 上 是 Python 元 组 的 鼻祖 ， 它 既 支 持平 行 赋值 ， 又 可 以 
用 在 字典 (dict) 里 作为 合成 键 (ABC 里 对 应 字典 的 类 型 是 表格 ， 即 
table) 。 但 compounds 不 属于 序列 ， 它 不 是 迭代 类 型 ， 也 不 能 通过 
下 标 来 提取 某 个 值 ， 更 不 用 说 切片 了 。 要 么 把 compounds 对 象 当 作 整 
体 来 用 ， 要 么 用 平行 赋值 把 里 面 所 有 的 字段 都 提取 出 来 ， 仪 此 而 已 。 


我 跟 Guido 说 ， 上 面 这 些 限制 让 compounds 的 作用 变 得 很 明确 ， 它 只 
能 用 作 没 有 字段 名 的 记录 。Guido 回应 说 ，Python 里 的 元 组 能 当 作 序列 
来 使 用 ， 其 实 是 一 个 取 巧 的 实现 。 


这 其 实体 现 了 Python 的 实用 主义 ， 而 实用 主义 是 Python 较 之 ABC 更 好 
用 也 更 成 功 的 原因 。 从 一 个 语言 开发 人 员 的 角度 来 看 ， 让 元 组 具有 序列 
的 特性 可 能 需要 下 点 功夫 ， 结 果 则 是 设计 出 了 一 个 概念 上 并 不 如 
compounds 纯粹 ， 却 更 灵活 的 元 组 一 一 它 甚 至 能 当成 不 可 变 的 列表 来 
使 用 。 

说 真 的 ， 不 可 变 列表 这 种 数据 类 型 在 编程 语言 里 真 的 非常 好 用 (其 实 
frozenlist 这 个 名 字 更 酷 }; ， 而 Python 里 这 种 类 型 其 实 就 是 一 个 行 
为 很 像 序列 的 元 组 。 


am 


“优雅 是 简约 之 父 ” 


很 久 以 前 ，*extra 这 种 语法 就 在 函数 里 用 来 把 多 个 元 素 赋值 给 一 个 参 
数 了 。 (我 有 本 出 版 于 1996 年 的 讲 Python 1.4 的 书 ， 里 面 就 提 到 了 这 个 
用 法 。) Python 1.6 或 更 新 的 版 本 里 ， 这 个 语法 在 函数 调用 中 用 来 把 一 
个 可 迭代 对 象 拆 包 成 不 同 的 参数 ， 这 算是 跟 上 面 说 的 那 种 用 法 互补 。 这 
一 设计 直观 而 优雅 ， 并 且 取 代 了 Python 里 的 apply HAY ° MISFIT 
Python 3, *extra 这 个 写法 又 可 以 用 在 赋值 表达 式 的 左 侧 ， 从 而 在 平 
行 赋 值 里 接收 多 余 的 元 素 。 这 一 点 让 这 个 本 来 就 很 实用 的 语法 锅 上 添 

人 化” 


像 这 样 的 改进 一 个 接着 一 个 ， 让 Python 变 得 越 来 越 灵 活 ， 越 来 越 统一 ， 
也 越 来 越 简 单 。“ 优 雅 是 简约 之 父 ”(〈“Elegance begets simplicity”) 是 
2009 年 在 之 加 哥 的 PyCon 的 口号 ， 印 在 PyCon 的 工 恤 上 ， 同 样 印 在 工 
恤 上 的 还 有 Bruce Eckel 画 的 《 易 经 》 第 二 十 二 卦 ， 即 贡 卦 的 卦 象 。 贡 
代表 着 典雅 高 贵 。 这 也 是 我 最 喜欢 的 一 件 PyCon HY T iil ° 


扁平 序列 和 容器 序列 


为 了 解释 不 同 序 列 类 型 里 不 同 的 内 存 模 型 ， 我 用 了 容器 序列 和 扁平 序列 
这 两 个 说 法 。 其 中 “容器 ”一 词 来 自 “Data Model”* 文 档 : 


有 些 对 象 里 包含 对 其 他 对 象 的 引用 ; 这 些 对 象 称 为 容器 。 


因此 ， 我 特别 使 用 了 “容器 序列 "这 个 词 ， 因 为 Python 里 有 是 容 右 但 并 非 
序列 的 类 型 ， 比 如 dict 和 set ° Aas yn RB ee, Aly Aas 
里 的 引用 可 以 针对 包括 目 喘 类 型 在 内 的 任何 类 型 。 


与 此 相反 ， 扁 平 序列 因为 只 能 包含 原子 数据 类 型 ， 比 如 整数 、 浮 点 数 或 
字符 ， 所 以 不 能 撕 套 使 用 。 


称 其 为 “扁平 序列 "是 因为 我 希望 有 个 名 词 能 够 跟 “ 容 器 序列 ”形成 对 比 。 
这 个 词 是 我 自己 发 明 的 ， 专 门 用 来 指 代 Python 中 “不 是 容器 序列 ”的 序 
列 ， 在 其 他 地 方 你 可 能 找 不 到 这 样 的 用 法 。 如 末 这 个 词 出 现在 维基 百科 
上 面 的 话 ， 我 们 需要 给 它 加 上 “原创 研究 ”标签 。 我 更 倾向 于 把 这 类 词 称 
作 “ 上 自 创 名 词 ”"， 项 望 它 能 对 你 有 所 帮助 并 为 你 所 用 。 


混合 类 型 列表 
Python 入 门 教材 往往 会 强调 列表 是 可 以 同时 容纳 不 同类 型 的 元 素 的 ， 但 


是 实际 上 这 样 做 并 没有 什么 特别 的 好 处 。 我 们 之 所 以 用 列表 来 存放 东 
西 ， 是 期 符 在 稍 后 使 用 它 的 时 候 ， 其 中 的 元 素 有 一 些 通 用 的 特性 ( 比 


如 ， 列 表 里 存 的 是 一 rea ale 那么 所 有 的 元 素 都 应 该 会 
发 出 这 种 叫 声 ， 即 便 其 中 一 部 分 元 素 类 型 并 不 是 鸭子 ) 。 在 Python 3 
5 如 果 列 表 里 的 东西 不 角 比较 大 小 那么 我 们 就 不 能 对 列表 进行 排 
F: 


>>> 1 = [28, 14, '28', 

>>> sorted(1) 

Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 


TypeError: unorderable types: str() < int() 


元 组 则 恰恰 相反 ， 它 经 常用 来 存放 不 同类 型 的 的 元 素 。 这 也 符合 它 的 本 
质 ， 元 组 就 是 用 作 存 放 彼 此 之 间 没 有 关系 的 数据 的 记录 。 


key 参数 很 妙 


list.sort、sorted、max 和 min KZI key 参数 是 一 个 很 棒 的 设 
计 。 其 他 语言 里 的 排序 函 数 需要 用 户 提供 一 个 接收 两 个 参数 的 比较 函数 
作为 参数 ， 像 是 Python 2 里 的 cmp(a，b)。 用 key 参数 能 把 事情 变 得 
简单 且 高 效 。 说 它 更 简单 ， 是 因为 只 需要 提供 一 个 单 参数 函数 来 提取 或 
者 计算 一 个 值 作为 比较 大 小 的 标准 即 可 ， 而 Python 2 的 这 种 设计 则 需要 
用 户 写 一 个 返回 值 是 一 1、0 或 者 1 的 双 参 数 函 数 。 说 它 更 高 效 ， 是 因为 
在 每 个 元 素 上 ，key 函数 只 会 被 调用 一 次 。 而 双 参 数 比较 函数 则 在 每 一 
次 两 两 比较 的 时 候 都 会 被 调用 。 诚 然 ， 在 排序 的 时 候 ，Python 总 会 比较 
两 个 键 (key) ， 但 是 那 一 阶段 的 计算 会 发 生 在 C 语言 那 一 层 ， 这 样 会 
比 调用 用 户 自 定义 的 Python 比较 函数 更 快 。 


另外 ，key 参数 也 能 让 你 对 一 个 混 有 数字 字符 和 数值 的 列表 进行 排序 。 
你 只 需要 决定 到 底 是 把 字符 看 作 数 值 ， 还 是 把 数值 看 作 了 字符 : 


>>> 1 = [28, 14, '28', 
>>> sorted(1, key=int) 
[0, '1', 5, 6, '9', 14, 19, ' 


>>> sorted(l, key=str) 
[0, '1', 14, 19, '23', 28, ' 


Oracle ` Google 和 Timbot 之 间 的 八卦 


sorted 和 1ist.sort 背后 的 排序 算法 是 Timsort， 它 是 一 种 自 适 应 算 
法 ， 会 根据 原始 数据 的 顺序 特点 交 蔡 使 用 插入 排序 和 归并 排序 ， 以 达到 


最 佳 效 率 。 这 样 的 算法 被 证 明 是 很 有 效 的 ， 因 为 来 目 真实 世界 的 数据 通 
党 是 有 一 定 的 顺序 特点 的 。 维 基 百 科 上 有 一 个 条 目 是 关于 这 个 算法 的 。 


Timsort 在 2002 年 的 时 候 首次 用 在 CPython 中 ; 自 2009 年 起 ，Java 和 
Android 也 开始 使 用 这 个 算法 。 后 面 这 个 时 间 点 如 此 广为人知 ， 是 因为 
在 Google 对 Sun 的 侵权 案 中 ， Oracle 把 Timsort 中 的 一 些 相 关 代码 当 作 
T BRU ° HE “Oracle v. Google—Day 14 Filings” 一 文 。 


Timsort 的 创始 人 是 Tim Peters， 他 同时 也 是 一 位 高 产 的 Python 核心 开发 
者 。 由 于 他 贡献 了 太 多 代码 ， 以 至 于 很 多 人 都 说 他 其 实 是 人 工 智能 ， 他 
也 就 有 了 “Timbot” 这 一 绰号 。 在 “Python Humor” 里 可 以 读 到 相关 的 故 

事 。Tim 也 是 “Python 2 ##” (import this) 的 作者 。 


第 3 章 字典 和 集合 


字典 这 个 数据 结构 活跃 在 所 有 Python 程序 的 背后 ， 即 便 你 的 源码 里 并 没 
有 直接 用 到 它 。 


A. M. Kuchling 

《代码 之 美 》 第 18 “Python 的 字典 类 : 如 何 打造 全 能 战士 ” 
dict 类 型 不 但 在 各 种 程序 里 广泛 使 用 ， 它 也 是 Python 语言 的 基石 。 模 块 的 
命名 空间 、 实 例 的 属性 和 函数 的 关键 字 参 数 中 都 可 以 看 到 字典 的 身影 。 跟 它 
有 关 的 内 置 函 数 都 在 __builtins _._ dict 模块 中 。 


正 是 因为 字典 至 关 重 要 ，Python 对 它 的 实现 做 了 高 度 优化 ， 而 散 列 表 则 是 字 
典 类 型 性 能 出 众 的 根本 原因 。 


(set) 的 实现 其 实 也 依赖 于 散 列 表 ， 因 此 本 章 也 会 讲 到 它 。 反 过 来 
说 ， 想 要 进一步 理解 集合 和 字典 ， 就 得 先 理解 散 列 表 的 原理 。 


本 章 内 容 的 大 纲 如 下 : 
。 常见 的 字典 方法 
。 如 何 处 理 碍 找 不 到 的 键 
。 标准 库 中 dict 类 型 的 变种 

set 和 frozenset 类 型 

散 列表 的 工作 原理 

散 列 表 带 来 的 潜在 影响 〈 什 么 样 的 数据 类 型 可 作为 键 、 不 可 预知 的 顺 

序 ， 等 等 ) 


< 


3.1 FARA 


collections.abc 模块 中 有 Mapping F MutableMapping 这 两 个 抽象 
基 类 ， 它 们 的 作用 是 为 dict 和 其 他 类 似 的 类 型 定义 形式 接口 (在 Python 
2.6 到 Python 3.2 的 版 本 中 ， 这 些 类 还 不 属于 collections.abc 模块 ， 而 
ÆRET collections i) 。 详 见 图 3-1。 


getitem _ MutableMapping | 
__setitem__ 


__contains__ __delitem__ 


Iterable clear 


=a pop 
popitem 
setdefault 
update 


图 3-1: collections.abc AY MutableMapping 和 它 的 超 类 的 UML 
类 图 〈 箭 头 从 子 类 指向 超 类 ， 抽 象 类 和 抽象 方法 的 名 称 以 斜体 显示 ) 


然而 ， 非 抽象 映射 类 型 一 般 不 会 直接 继承 这 些 抽 象 基 类 ， 它 们 会 直接 对 
dict 或 是 collections.UserDict 进行 扩展 。 这 些 抽 象 基 类 的 主要 作用 
是 作为 形式 化 的 文档 ， 它 们 定义 了 构建 一 个 映射 类 型 所 需要 的 最 基本 的 接 
口 。 然 后 它们 还 可 以 跟 isinstance 一 起 被 用 来 判定 某 个 数据 是 不 是 广义 
上 的 映射 类 型 1 : 


1 在 运行 这 两 行 代码 前 ， 读 者 需要 先 执行 一 下 from collections import abc。 一 一 译 者 注 


>>> my_dict = {} 
>>> isinstance(my_dict, abc.Mapping) 
True 


这 里 用 isinstance 而 不 是 type 来 检查 某 个 参数 是 否 为 dict 类 型 ， 因 为 
这 个 参数 有 可 能 不 是 dict， 而 是 一 个 比较 另类 的 映射 类 型 。 


标准 库 里 的 所 有 映射 类 型 都 是 利用 dict 来 实现 的 ， 因 此 它们 有 个 共同 的 限 


制 ， 即 只 有 可 散 列 的 数据 类 型 才能 用 作 这 些 映射 里 的 键 (只 有 键 有 这 个 要 
求 ， 值 并 不 需要 是 可 散 列 的 数据 类 型 ) 


什么 是 可 散 列 的 数据 类 型 

在 Python 词汇 表 中 ， 关 于 可 散 列 类 型 的 定义 有 这 样 一 段 话 : 
如 果 一 个 对 象 是 可 散 列 的 ， 那 么 在 这 个 对 象 的 生命 周期 中 ， 它 的 散 
列 值 是 不 变 的 ， 而 且 这 个 对 象 需要 实现 hash__() 方法 。 另 外 


可 散 列 对 象 还 要 有 qe () 方法 ， 这 样 才 能 跟 其 他 键 做 比较 。 如 
果 两 个 可 散 列 对 象 是 相等 的 ， 那 么 它们 的 散 列 值 一 定 是 一 样 的 .……… 


原子 不 可 变数 据 类 型 (str、bytes 和 数值 类 型 ) 都 是 可 散 列 类 型 ， 
frozenset 也 是 可 散 列 的 ， 因 为 根据 其 定义 ，frozenset 里 只 能 容纳 
可 散 列 类 型 。 元 组 的 话 ， 只 有 当 一 个 元 组 包含 的 所 有 元 素 都 是 可 散 列 类 
型 的 情况 下 ， 它 才 是 可 散 列 的 。 来 看 下 面 的 元 组 tt、t1 tf: 


>>> tt = (1, 2, (30, 40)) 

>>> hash(tt) 

8027212646858338501 

>>> tl = (1, 2, [30, 40]) 

>>> hash(tl) 

Traceback (most recent call last): 


File "<stdin>", line 1, in <module> 
TypeError: unhashable type: 'list' 
>>> tf = (1, 2, frozenset([30, 40])) 
>>> hash(tf) 

-4118419923444501110 


S| 

Pry 直到 我 写 这 本 书 的 时 候 ，Python 词汇 表 里 还 在 说 “Python 里 所 有 
的 不 可 变 类 型 都 是 可 散 列 的 "。 这 个 说 法 其 实 是 不 准确 的 ， 比 如 里 然 元 
组 本 里 是 不 可 变 序列 ， 它 里 面 的 元 素 可 能 是 其 他 可 变 类 型 的 引用 。 


般 来 讲 用 户 目 定 义 的 类 型 的 对 象 都 是 可 散 列 的 ， 散 列 值 就 是 它们 的 
id() 函数 的 返回 值 ， 所 以 所 有 这 些 对 象 在 比较 的 时 候 都 是 不 相等 的 。 
如 采 一 个 对 和 象 实 现 了 __eq__ 方 法， 并 且 在 方法 中 用 到 了 这 个 对 象 的 内 
部 状态 的 话 ， 那 么 只 有 当 所 有 这 些 内 部 状态 都 是 不 可 变 的 情况 下 ， 这 个 
对 象 才 是 可 散 列 的 。 


根据 这 些 定 义 ， 字 和 典 提供 了 很 多 种 构造 方法 , “Built-in Types” 这 个 页 面 上 有 
个 例子 来 说 明 创建 字典 的 不 同方 式 : 


dict(one=1, two=2, three=3) 

{'one': 1, 'two': 2, 'three': 3} 
dict(zip(['one', 'two', 'three'], [1, 2, 3])) 
dict([('two', 2), ('one', 1), ('three', 3)]) 


dict({'three': 3, 'one': 1, 'two': 2}) 
==. 6 == ¢ == d == Æ 


除了 这 些 字面 句法 和 灵活 的 构造 方法 之 外 ， 字 典 推导 (dict comprehension) 
也 可 以 用 来 建造 新 dict， 详 见 下 一 节 。 


3.2 ”字典 推导 


H Python 2.7 以 来 ， 列 表 推 导 和 生成 器 表达 式 的 概念 就 移植 到 了 字典 上 ， 从 
而 有 了 字典 推导 (后 面 还 会 看 到 集合 推导 ) 。 字 典 推导 (dictcomp) 可 以 从 
任何 以 链 值 对 作为 元 素 的 可 泛 代 对 象 中 构建 出 字典 。 示例 1 就 展示 了 利用 
字典 推导 可 以 把 一 个 装 满 元 组 的 列表 变 成 两 个 不 同 的 字典 


示例 3-1 字典 推导 的 应 用 


>>> DIAL_CODES = 二 
"China'), 
‘India'), 
"United States'), 
"Indonesia'), 
"Brazil'), 
"Pakistan'), 
, '‘Bangladesh'), 
'Nigeria'), 
"Russia'), 
'Japan'), 
iia ] 
>>> country_code = {country: code for code, country in DIAL_CODES} @ 


': 91, 'Bangladesh': 880, 'United States': 1, 
'Pakistan': 92, ' ': 81, 'Russia': 7, 'Brazil': 55, 'Nigeria': 
234, 'Indonesia': 
>>> {code: country.upper() for country, code in country_code.items() ® 
, if code < 66} 


{1: 'UNITED STATES', 55: 'BRAZIL', 62: 'INDONESIA', 7: 'RUSSIA'} 


@ 一 个 承载 成 对 数据 的 列表 ， 它 可 以 直接 用 在 字典 的 构造 方法 中 。 
这 里 把 配 好 对 的 数据 左右 换 了 下 ， 国 家 名 是 键 ， 区 域 码 是 值 。 


卓 跟 上 面相 反 ， 用 区 域 码 作为 键 ， 国 家 名 称 转换 为 大 写 ， 并 且 过 滤 掉 区 域 码 
大 于 或 等 于 66 的 地 区 。 


如 果 列 表 推 导 的 概念 已 经 为 你 所 熟知 ， 接 受 字典 推导 应 该 不 难 。 如 采 你 对 列 
表 推 导 还 不 熟 ， 那 么 是 时 候 来 掌握 它 了 ， 因 为 字典 推导 的 表达 形式 会 划 延 到 
其 他 数据 类 型 中 。 


下 面 来 看 看 映射 类 型 提供 的 AP 的 全 景 图 。 
3.3 ”常见 的 映射 方法 


映射 类 型 的 方法 其 实 很 丰富 。 表 3-1 为 我 们 展示 了 dict、defaultdict 
和 OrderedDict 的 常见 方法 ， 后 面 两 个 数据 类 型 是 dict 的 变种 ， 位 于 


collections 模块 内 。 


323-1: dict ` collections.defaultdictI 
collections. S e a (依然 省 略 了 继 
承 自 object 的 常见 方法 ) ; 可 选 参数 以 [ . . . ] 表 示 


dict | defaultdict | OrderedDict 
d.clear() 


ees i 


于 支持 copy. copy 


Vere ee JE _missing WAC PAA A ENS 
ae ica 以 给 未 找到 的 元 素 设置 值 * 
d.__delitem_(k) | 。 Fo oP del d[k]， 移 除 键 为 k 的 元 素 


ER (GAR it LEYTE A M 

onan BE, MAR initial Pkr, WEEE 
这 些 键 对 应 的 值 (默认 是 None) 

d.get(k, 返回 键 kK 对 应 的 值 ， 如 有 果 字 典 里 ; 

[default]) ， 则 ; 或 

i — yr | 


i 一 E l eko ui 


dict | defaultdict | OrderedDict 


d.keys() 所 有 的 键 


] 以 用 len(a) 的 形式 得 到 字典 里 键 值 
THAE 


当 __getitem_ 找 丰 到 对 应 链 的 时 候 ， 


dn 这 个 方法 会 被 调 | 


d.move_to_end(k, k 的 元 素 移动 到 最 靠 前 或 者 最 
[last]) (last 的 默认 值 是 True) 


键 k 所 对 应 的 值 ， 然 后 移 除 这 个 
d.pop(k, [defaul] 键 值 对 。 如 果 没 有 这 个 键 ， 返 回 none 
或 者 defaul 


个 键 值 对 并 从 字典 里 移 除 


d.popitem( ) 


d.__reversed__() j 到 序 的 键 的 迭代 器 


里 有 键 k， 则 直接 返回 k 所 对 应 
d.setdefault(k, +e 、 

YE; 7c, ME d[k] = default， 然 
[default] ) 返回 default 


d.__setitem__(k, 实现 d[k] = v 操作 ， 把 k 对 应 的 值 设 
v) A 


d.update(m, m 可 以 是 映射 或 者 键 值 对 迭代 器 ， 
[**kargs]) 更 新 d 里 对 应 的 条 


d.values() 返回 字典 里 的 所 有 值 


*default_factory 并 不 是 一 个 方法 ， 而 是 一 个 可 调用 对 象 (callable) ， 它 的 值 在 defaultdict 
初始 化 的 时 候 由 用 户 设 定 。 


#OrderedDict.popitem() 会 移 除 字典 里 最 先 插入 的 元 素 (先进 先 出 ) ;同时 这 个 方法 还 有 一 个 
可 选 的 last 参数 ， 若 为 真 ， 则 会 移 除 最 后 插入 的 元 素 (后 进 先 出 ) e 


上 面 的 表格 中 ，update 方法 处 理 参数 m 的 方式 ， 是 典型 的 “鸭子 类 型 ”。 画 
数 首先 检查 m 是 否 有 keys ME, WREE, IA update 函数 就 把 它 当 作 了 映 
射 对 象 来 处 理 。 否 则 ， 画 数 会 退 一 步 ， 转 而 把 m 当 作 包 含 了 键 值 对 (key, 
value) 元 素 的 迭代 器 。Python 里 大 多 数 映 射 类 型 的 构造 方法 都 采用 了 类 似 
的 逻辑 ， 因 此 你 既 可 以 用 一 个 映射 对 象 来 新 建 一 个 映射 对 象 ， 也 可 以 用 包含 
(key, value) 元 素 的 可 迭代 对 象 来 初始 化 一 个 映射 对 象 。 


在 映射 对 象 的 方法 里 ，setdefault 可 能 是 比较 微妙 的 一 个 。 我 们 虽然 并 不 
会 每 次 都 用 它 ， 但 是 一 旦 它 发 挥 作用 ， 就 可 以 节省 不 少 次 键 查 询 ， 从 而 让 程 
序 更 高 效 。 如 果 你 对 它 还 不 熟悉 ， 下 面 我 会 通过 一 个 实例 来 讲解 它 的 用 法 。 


用 setdefault 处 理 找 不 到 的 键 


HFE d[k] 不 能 找到 正确 的 键 的 时 候 ，Python 会 抛 出 异常 ， 这 个 行为 符合 
Python 所 信奉 的 “快速 失败 ”哲学 。 也 许 每 个 Python 程序 员 都 知道 可 以 用 
d.get(k, default) 来 代替 d[k]， 给 找 不 到 的 键 一 个 默认 的 返回 值 (这 
比 处 理 KeyError 要 方便 不 少 ) 。 但 是 要 更 新 某 个 键 对 应 的 值 的 时 候 ， 不 管 
使 用 __getitem _ We get 都 会 不 自然 ， 而 且 歼 率 低 。 了 就 像 示 例 3-2 中 的 
ee dict. get 并 不 是 处 理 找 不 到 的 键 的 
最 好 方法 。 


示例 3-2 是 由 Alex Martelli 举 的 一 个 例子 “变化 而 来 ， 例 子 生成 的 索引 跟 示 
例 3-3 显示 的 一 样 。 


2 示例 代码 出 现在 Martelli 的 演讲 “Re-learning python” P (第 41 张 幻灯 片 ) ， 他 的 代码 被 我 放 在 了 示 
例 3-4 中 ， 代 码 很 好 地 展示 了 dict.setdefault 的 用 法 。 


示例 3-2 indexo. py 这 段 程序 从 索引 中 获取 单词 出 现 的 频率 信息 ， 并 
把 它们 写 进 对 应 的 列表 里 (更 好 的 解决 方案 在 示例 3-4 H) 


AEE 


5, 


建 一 个 从 单词 到 其 


Ee 
上 上 
YH 


岗 情 况 的 上 映射""" 


import sys 
import re 


WORD_RE = re.compile(r'\wt') 
index = {} 


with open(sys.argv[1], encoding='utf-8') as fp: 
for line_no, line in enumerate(fp, 1): 


for match in WORD_RE.finditer(line): 


word = match .group() 
column_no = match.start()+1 


location = (line_no, column no) 


# 这 其 实 是 一 和 很 不 好 的 实现 ， 这 样 写 5 


只 是 为 了 证 


occurrences = index.get(word, []) @ 
occurrences.append(location) 
index[word] = occurrences 
# 以 字母 顺序 打印 出 结果 
for word in sorted(index, key=str.upper): 
print(word, index[word] ) 


明 论 点 


O 提取 word 出 现 的 情况 ， 如 果 还 没有 它 的 记录 ， 


© 把 单词 新 出 现 的 位 置 添 加 到 列表 的 后 面 。 


返回 [] 。 


@ 把 新 的 列表 放 回 字典 中 ， 这 又 牵扯 到 一 次 查询 操作 。 


@ sorted 函数 的 key= 参数 没有 调用 str.upper, 


而 是 把 这 个 方法 的 引 


用 传递 给 sorted 函数 ， 这 样 在 排序 的 时 候 ， 单 词 会 被 规范 成 统一 格式 。” 


3 这 是 将 方法 用 作 一 等 画 数 的 一 个 示例 ， 第 5 章 会 谈 到 这 一 点 。 


示例 3-3 这 里 是 示例 3-2 的 不 完全 


一 行 的 列表 都 代表 一 个 单词 


的 出 现 情况 ， 列 表 中 的 元 素 是 一 对 值 ， 
表示 出 现 的 列 


$ python3 indexO.py ../../data/zen.txt 
a [(19, 48), (20, 53)] 

Although [(11, 1), (16, 1), (18, 1)] 
ambiguity [(14, 16)] 

and [(15, 23)] 

are [(21, 12)] 

aren [(10, 15)] 

at [(16, 38)] 


bad [(19, 50)] 

be [(15, 14), (16, 27), (20, 50)] 
beats [(11, 23)] 

Beautiful [(3, 1)] 

better [(3, 14), (4, 13), (5, 11), (6, 12), (7, 9), (8, 11), 
(17, 8), (18, 25)] 


z 个 值 表 


ZNE 


现 的 行 ， 第 二 个 


示例 3-2 里 处 理 单词 出 现 情况 的 三 行 ， 通 过 dict.setdefault 可 以 只 用 一 
行 解决 。 示 例 3-4 更 接近 Alex Martelli 自己 举 的 例子 。 


示例 3-4 index.py 用 一 行 就 解决 了 获取 和 更 新 单词 的 出 现 情况 列表 ， 当 
然 跟 示例 3-2 不 一 样 的 是 ， 这 里 用 到 了 dict.setdefault 


"" "创建 从 一 个 单词 到 其 出 现 情况 的 映射 """ 


import sys 
import re 


WORD_RE = re.compile(r'\wt' ) 


index = {} 
with open(sys.argv[1], encoding='utf-8') as fp: 
for line_no, line in enumerate(fp, 1): 


for match in WORD_RE.finditer(line): 
word = match.group() 
column_no = match.start()+1 
location = (line_no, column_no) 
index.setdefault(word, []).append(location) @ 


# 以 字母 顺序 打印 出 结果 
for word in sorted(index, key=str.upper): 
print(word, index[word] ) 


@ 获取 单词 的 出 现 情况 列表 ， 如 果 单 词 不 存在 ， 把 单词 和 一 个 空 列表 放 进 映 
a ， 然 后 返回 这 个 空 列表 ， 这 样 就 能 在 不 进行 第 二 次 查找 的 情况 下 更 新 列表 


也 就 是 说 ， 这 样 写 : 


my_dict.setdefault(key, []).append(new_value) 


跟 这 样 写 ; 


if key not in my_dict: 
my_dict[key] = [] 
my_dict[ key] .append(new_value) 


二 者 的 效果 是 一 样 的 ， 只 不 过 后 者 至 少 要 进行 两 次 键 查询 “如果 键 不 存在 
的 话 ， 就 是 三 次 ， 用 setdefault 只 需要 一 次 就 可 以 完成 整个 操作 。 


那么 ， 在 单纯 地 查找 取 值 〈 而 不 是 通过 查找 来 插入 新 值 ) 的 时 候 ， 该 怎么 处 
理 找 不 到 的 键 呢 ? 
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3.4 有 映射 的 弹性 键 查询 


有 时 候 为 了 方便 起 见 ， 就 算 某 个 键 在 映射 里 不 存在 ， 我 们 也 希望 在 通过 这 
键 读 取 值 的 时 候 能 得 到 一 个 默认 值 。 有 两 个 途径 能 帮 有 我 们 达到 这 个 目的 ， 

个 是 通过 defaultdict 这 个 类 型 而 不 是 普通 的 dict， 男 一 个 是 给 自 二 证 
义 一 个 dict 的 子 类 ， 然 后 在 子 类 中 实现 missing 方法。 下面 将 介绍 
这 两 种 方法 © 


3.4.1 defaultdict: 处 理 找 不 到 的 键 的 一 个 选择 


示例 3-5 在 collections.defaultdict 的 帮助 下 优雅 地 解决 了 示例 3-4 
里 的 问题 。 在 用 户 创建 defaultdict 对 象 的 时 候 ， 就 需要 给 它 配置 一 个 为 
找 不 到 的 键 创造 默认 值 的 方法 。 


具体 而 言 ， 在 实例 化 一 个 defaultdict 的 时 候 ， 需 要 给 构造 方法 提供 一 个 
可 调用 对 象 ， 这 个 可 调用 对 象 会 在 ”getitem _ 磁 到 找 不 到 的 键 的 时 候 被 
调用 ,让 _ getitem_ 返回 某 种 默认 值 。 
比如 ， 我 们 新 建 了 这 样 一 个 字典 : dd = defaultdict(1ist)， 如 果 键 
'new-key' 在 dd 中 还 不 存在 的 话 ， 表 达 式 dd[ 'new-key ' ] 会 按照 以 下 
的 步骤 来 行事 。 

(1) 调用 list() 来 建立 一 个 新 列表 。 

(2) 把 这 个 新 列表 作为 值 ，'new-key ' 作为 它 的 键 ， 放 到 dd 中 。 

(3) 返回 这 个 列表 的 引用 。 


而 这 个 用 来 生成 默认 值 的 可 调用 对 象 存放 在 名 为 default_factory 的 实 
例 属性 里 。 


示例 3-5 index_default.py: 利用 defaultdict 实例 而 不 是 
setdefault 方法 


" "创建 一 个 从 单词 到 其 出 现 情况 的 映射 """ 


import sys 
import re 
import collections 


WORD_RE = re.compile(r'\w+') 


index = collections.defaultdict(list) © 
with open(sys.argv[1], encoding='utf-8') as fp: 
for line_no, line in enumerate(fp, 1): 
for match in WORD_RE.finditer(line): 
word = match.group() 
column_no = match.start()+1 
location = (line_no, column_no) 
index[word].append( location) © 


# 以 字母 顺序 打印 出 结果 
for word in sorted(index, key=str.upper): 
print(word, index[word] ) 


@ 把 list 构造 方法 作为 default_factory 来 创建 一 个 
defaultdict ° 


四 如 果 index 并 没有 word 的 记录 ， 那 么 default_factory 会 被 调用 ， 
为 查询 不 到 的 键 创造 一 个 值 。 这 个 值 在 这 里 是 一 个 空 的 列表 ， 然 后 这 个 空 列 
表 被 赋值 给 ijndex [word] ， 继 而 被 当 作 返回 值 返回 ， 因 此 
.append(location) 操作 总 能 成 功 。 


如 果 在 创建 defaultdict 的 时 候 没 有 指定 default_factory， 查 询 不 
存在 的 键 会 触发 KeyError。 


从 defaultdict 里 的 default_factory 只 会 在 
_getitem _ 里 被 调用 ， 在 其 他 的 方法 里 完全 不 会 发 挥 作用 。 比 如 ， 
dd 是 个 defaultdict, k 是 个 找 不 到 的 键 ，dd[k] 这 个 表达 式 会 调 
用 default_factory 创造 某 个 默认 值 ， 而 dd.get(k) 则 会 返回 
None ° 


所 有 这 一 切 背 后 的 功臣 其 实 是 特殊 方法 __missing__。 它 会 在 
defaultdict 遇 到 找 不 到 的 键 的 时 候 调 用 default_factory， 而 实际 上 
这 个 特性 是 所 有 映射 类 型 都 可 以 选择 去 文 持 的 。 


3.4.2 ”特殊 方法 “missing _ 
所 有 的 映射 类 型 在 处 理 找 不 到 的 键 的 时 候 ， 都 会 牵扯 到 _missing_ 77 
法 。 这 也 是 这 个 方法 称 作 “missing” 的 原因 。 虽 然 基 类 dict 并 没有 定义 这 个 


方法 ， 但 是 dict 是 知道 有 这 么 个 东西 存在 的 。 也 就是 说 ， 如 果 有 一 个 类 继 
承 了 dict， 然 后 这 个 继承 类 提供 了 __missing__ 方 法， 那么 在 


__getitem__ 碰 到 找 不 到 的 键 的 时 候 ，Python 就 会 目 动 调用 它 ， 而 不 是 抛 


出 一 个 KeyError 异常 。 


从 ”missing_ _ 方法 只 会 被 _getitem _ 调用 (比如 在 表达 式 
d[k] F) 。 提 供 _ missing _ 方法 对 get 或 者 _contains —_ 

(in 运算 符 会 用 到 这 个 方法 ) 这 些 方法 的 使 用 没有 影响 。 这 也 是 我 在 
上 一 节 最 后 的 警告 中 提 到 ，defaultdict 中 的 default_factory 
只 对 __getitem 有 作用 的 原因 。 


有 时 候 ， 你 会 希望 在 查询 的 时 候 ， 映 射 类 型 里 的 键 统统 转换 成 str。 为 可 编 
程 电路 板 ( 像 Raspberry Pi 或 Arduino4) 准备 的 Pingo.io 项 目 里 就 有 具体 的 
例子 。 在 Pingo.io 里 ， 电 路 板 上 的 GPIO 针脚 5 以 board .pins 为 名 ， 封 装 
在 名 为 board 的 对 象 里 。board .pins 是 一 个 映射 类 型 ， 其 中 键 是 针脚 的 
物理 位 置 ， 它 可 能 只 是 一 个 数字 或 字符 串 ， 比 如 "ao" 或 "P9_12"; 值 则 
是 针脚 连接 的 东西 。 为 了 保持 一 致 性 ， 我 们 希望 board. pins 的 键 只 能 是 
字符 串 ， 但 是 为 了 方便 查询 ，my_arduino,.pins[13] 也 是 可 行 的 ， 这 样 
可 以 帮 Arduino 的 初级 玩家 快速 找到 第 13 个 针脚 上 的 LED 灯 。 示 例 3-6 展 
示 了 这 样 的 一 个 映射 是 怎么 运行 的 。 


4Raspberry Pi 是 一 个 集成 到 巴掌 大 小 的 板子 上 的 电脑 。Arduino 则 是 一 种 可 以 在 烧 录 程序 的 同时 ， 连 
接 上 各 种 传感器 ， 用 以 跟 物理 世界 交互 的 电路 板 。 更 多 的 相关 信息 可 以 在 https://www.raspberrypi.org/ 
和 https://www.arduino.cc/ 上 找到 。 一 一 译 者 注 


5 通用 输入 输出 针脚 ， 用 来 跟 传 感 器 或 其 他 设备 用 数据 互动 。 一 一 译 者 注 


示例 3-6” 当 有 非 字符 串 的 键 被 查找 的 时 候 ，StrKeyDictg 是 如 何在 
该 键 不 存在 的 情况 下 ， 把 它 转 换 为 字符 串 的 


Tests for item retrieval using ‘d[key] notation:: 


>>> d = StrKeyDictO([('2', 'two'), ('4', 'four')]) 
>>> d['2'"] 

'two' 

>>> d[4] 

'four' 

>>> d[1] 

Traceback (most recent call last): 


KeyError: '1' 
Tests for item retrieval using `d.get(key)` notation:: 


>>> d.get('2') 
'two' 


>>> d.get(4) 

'four' 

>>> d.get(1, 'N/A') 
"N/A' 


Tests for the “in” operator:: 


>>> 2 ind 
True 
>>> 1 ind 
False 


示例 3-7 则 实现 了 上 面 例子 里 的 StrKeyDict0 类 。 


iN 如 果 要 自 定义 一 个 映射 类 型 ， 更 合适 的 策略 其 实 是 继承 
collections.UserDict 类 (示例 3-8 Wied) 。 这 里 我 们 从 
dict 继承 ， 只 是 为 了 演示 missing_ ”是 如 何 被 

dict. getitem _ 调用 的 。 


示例 3-7 StrKeyDicto 在 查询 的 时 候 把 非 字符 串 的 键 转换 为 字符 串 


class StrKeyDicto(dict): @ 


def _missing (self, key): 
if isinstance(key, str): @ 
raise KeyError(key) 
return self[str(key)] © 


def get(self, key, default=None): 
try: 
return self[key] @ 
except KeyError: 
return default © 


def __contains (self, key): 
return key in self.keys() or str(key) in self.keys() © 


@ StrKeyDictO 继承 了 dict ° 
@ 如 果 找 不 到 的 键 本 身 台 是 字符 串 ， 那 就 抛 出 KeyError 异常 
O 如 果 找 不 到 的 键 不 是 字符 串 ， 那 么 把 它 转换 成 字符 串 再 进行 查找 © 


[0] 


O get 方法 把 查找 工作 用 self[key] 的 形式 委托 给 getitem ， 这 样 
在 宣布 查找 失败 之 前 ， 还 能 通过 __missing _ 再 给 某 个 键 一 个 机 会 。 


O 如 果 抛 出 KeyError， 那 么 说 明 __missing _ 也 失败 了 ， 于 是 返回 
default ° 


O 先 按照 传 入 键 的 原本 的 值 来 查找 《我 们 的 映射 类 型 中 可 能 含有 非 字 符 串 的 
BE) ， 如 采 没 找到 ， 再 用 str( ) 方法 把 键 转换 成 字符 串 再 查找 一 次 。 


下 面 来 看 看 为 什么 isinstance(key, str) 测试 在 上 面 的 


missing _ 中 是 必需 的 。 


如 果 没 有 这 个 测试 ， 只 要 str(k) 返回 的 是 一 个 存在 的 键 ， 那 么 
__missing 方法 是 没 问 题 的 ， 不 管 是 字符 串 键 还 是 非 字 符 串 键 ， 它 都 能 
正常 运行 。 但 是 如 果 str(k) 不 是 一 个 存在 的 键 ， 代 码 就 会 陷入 无 限 递归 。 
这 是 因为 “missing_ 的 最 后 一 行 中 的 self[str(key)] 会 调用 
getitem ， 而 这 个 str(key) 又 不 存在 ， 于 是 missing Xew 
调用 。 


为 了 保持 一 致 性 ，_contains_ ”方法 在 这 里 也 是 必需 的 。 这 是 因为 k in 
d 这 个 操作 会 调用 它 ， 但 是 我 们 从 dict 继承 到 的 __contains__ 方法 不 
会 在 找 不 到 键 的 时 候 调用 __missing _ 方法 。 contains _ 里 还 有 个 
细节 ， 就 是 我 们 这 里 没有 用 更 具 Python 风格 的 方式 一 —k in my_dict 
来 检查 键 是 否 存在 ， 因 为 那 也 会 导致 _contains__ 被 递归 调用 。 为 
7 这 里 采取 了 更 显 式 的 方法 ， 直 接 在 这 个 selLf.keys() 里 
查询 © 


iN {žk in my_dict.keys() 这 种 操作 在 Python 3 中 是 很 快 的 ， 
而 且 即 便 映 射 类 型 对 象 很 庞大 也 没关系 。 这 是 因为 dict .keys() 的 返 
回 值 是 一 个 “视图 ”。 视 图 就 像 一 个 集合 ， 而 且 跟 字典 类 似 的 是 ， 在 视图 
里 查找 一 个 元 素 的 速度 很 快 。 在 “Dictionary view objects” 里 可 以 找到 关 
于 这 个 细节 的 文档 。 Python 2 的 dict,keys() 返回 的 是 个 列表 ， 因 此 
虽然 上 面 的 方法 仍然 是 正确 的 ， 它 在 处 理 体积 大 的 对 象 的 时 候 效 率 不 会 
Kia, AAk in my_list 操作 需要 扫描 整个 列表 。 


出 于 对 准确 度 的 考虑 ， 我 们 也 需要 这 个 按照 键 的 原本 的 值 来 查找 的 操作 (也 
就 是 key in self.keys()) ， 因 为 在 创建 StrKeyDict9 和 为 它 添加 新 
值 的 时 候 ， 我 们 并 没有 强制 要 求 传 入 的 键 必须 是 字符 串 。 因 为 这 个 操作 没有 
规定 死 键 的 类 型 ， 所 以 让 查找 操作 变 得 更 加 友好 。 


好 了 了 ， 我 们 已 经 见识 过 dict 和 defaultdict 了 。 但 是 标准 库 里 面 还 有 很 
多 其 他 的 映射 类 型 ， 下 面 就 来 看 看 。 


3.5 ”字典 的 变种 


这 一 节 总 结 了 标准 库 里 collections 模块 中 ,除了 defaultdict 之 外 的 
不 同 映射 类 型 。 


collections.OrderedDict 


这 个 类 型 在 添加 键 的 时 候 会 保持 顺序 ， 因 此 键 的 迭代 次 序 总 是 一 致 的 。 
OrderedDict 的 popitenm 方法 默认 删除 并 返回 的 是 字典 里 的 最 后 一 个 元 
素 ， 但 是 如 果 像 my_odict .popitem(1last=False ) 这 样 调用 它 ， 那 么 它 
删除 并 返回 第 一 个 被 添加 进去 的 元 素 。 


collections.ChainMap 


该 类 型 可 以 容纳 数 个 不 同 的 映射 对 象 ， 然 后 在 进行 键 查找 操作 的 时 候 ， 
这 些 对 象 会 被 当 作 一 个 整体 被 逐个 查找 ， 直 到 键 被 找到 为 止 。 这 个 功能 在 给 
有 崩 套 作用 域 的 语言 做 解释 器 的 时 候 很 有 用 ， 可 以 用 一 个 映射 对 象 来 代表 一 
个 作用 域 的 上 下 文 。 在 collections 文档 介绍 ChainMap 对 象 的 那 一 部 
人 其 中 包含 了 下 面 这 个 Python 变量 查询 规则 的 代 
片段 : 


import builtins 
pylookup = ChainMap(locals(), globals(), vars(builtins)) 


collections.Counter 


这 个 映射 类 型 会 给 键 准备 一 个 整数 计数 器 。 每 次 更 新 一 个 键 的 时 候 都 会 
增加 这 个 计数 器 。 所 以 这 个 类 型 可 以 用 来 给 可 散 列 表 对 象 计数 ， 或 者 是 当成 
多 重 集 来 用 一 一 多 重 集合 就 是 集合 里 的 元 素 可 以 出 现 不 止 一 次 。Counter 
实现 了 + 和 - 运算 符 用 来 合并 记录 ， 还 有 像 most_common( [n] ) 这 类 很 有 
用 的 方法 。most_common( [n] ) 会 按照 次 序 返 回 映 射 里 最 常见 的 n 个 键 和 
它们 的 计数 ， 详 情 参 阅 文档 。 下 面 的 小 例子 利用 Counter 来 计算 单词 中 各 
个 字母 出 现 的 次 数 : 


>>> ct = collections.Counter('abracadabra' ) 
>>> ct 


Counter({'a': 5, 'b': 2, 'r': 2, 'c': 1, 'd': 1}) 
>>> ct.update('aaaaazzz') 


>>> ct 

Counter({'a': 10, 'z': 3, 'b': 2, 'r': 2, 'c': 1, 'd': 1}) 
>>> ct.most_common(2) 

[('a', 10), ('z', 3)] 


colllections.UserDict 
这 个 类 其 实 就 是 把 标准 dict 用 纯 Python 又 实现 了 一 遍 。 


i OrderedDict ` ChainMap 和 Counter 这 些 开 箱 即 用 的 类 型 不 同 ， 
UserDict 是 让 用 户 继承 写 子 类 的 。 下 面 就 来 试 试 。 


3.6 ” 子 类 化 UserDict 


就 创造 自 定义 映射 类 型 来 说 ， 以 UserDict 为 基 类 ， 总 比 以 普通 的 dict 为 
基 类 要 来 得 方便 。 


这 体现 在 ， 我 们 能 够 改进 示例 3-7 中 定义 的 StrKeyDicto 类 ， 使 得 所 有 的 
键 都 存储 为 字符 串 类 型 。 


而 更 倾向 于 从 UserDict 而 不 是 从 dict 继承 的 主要 原因 是 ， 后 者 有 时 会 在 
某 些 方法 的 实现 上 走 一 些 捷径 ， 导 致 我 们 不 得 不 在 它 的 子 类 中 重 写 这 些 方 
法 ， 但 是 UserDict 就 不 会 带 来 这 些 问题 。。 


6 关于 从 dict 或 者 其 他 内 置 类 继承 到 底 有 什么 不 好 ， 详 见 12.1 节 。 


另外 一 个 值得 注意 的 地 方 是 ，UserDict 并 不 是 dict 的 子 类 ， 但 是 
UserDict 有 一 个 叫 作 data 的 属性 ， 是 dict 的 实例 ， 这 个 属性 实际 上 是 
UserDict 最 终 存储 数据 的 地 方 。 这 样 做 的 好 处 是 ， 比 起 示例 3-7, 
UserDict 的 子 类 就 能 在 实现 __setitem _ 的 时 候 避 免 不 必要 的 递归 ， 世 
可 以 让 ”contains 里 的 代码 更 简洁 。 


多 亏 了 UserDict， 示 例 3-8 里 的 StrKeyDict 的 代码 比 示例 3-7 里 的 

StrKeyDicto 要 短 一 些 ， 功 能 却 更 完善 : 它 不 但 把 所 有 的 键 都 以 字符 串 的 

还 能 处 理 一 些 创建 或 者 更 新 实例 时 包含 非 字 符 串 类 型 的 键 这 类 意 
情况 。 


示例 3-8 无论 是 添加 、 更 新 还 是 查询 操作 ，StrKkeyDict 都 会 把 非 字 
符 串 的 键 转换 为 字符 串 


Ft 


import collections 


class StrKeyDict(collections.UserDict): @ 


def _missing (self, key): © 
if isinstance(key, str): 
raise KeyError(key) 
return self[str(key) ] 


def __contains__(self, key): 
return str(key) in self.data © 


def _ setitem_ (self, key, item): 
self.data[str(key)] = item @ 


@ StrKeyDict 是 对 UserDict 的 扩展 。 
@ missing Ral 3-7 里 的 一 模 一 样 。 


上 日 contains_ _ 则 更 简洁 些 。 这 里 可 以 放心 假设 所 有 已 经 存储 的 键 都 是 
字符 串 。 因 此 ， 只 要 在 self. data 上 查询 就 好 了 ， 并 不 需要 像 
StrKeyDict9 那样 去 麻烦 self .keys()。 


@ setitem 会 把 所 有 的 键 都 转换 成 字符 串 。 由 于 把 具体 的 实现 委托 给 
了 self.data 属性 ， 这 个 方法 写 起 来 也 不 难 。 


因为 UserDict 继承 的 是 MutableMapping， 所 以 StrKeyDict 里 剩 下 

的 那些 映射 类 型 的 方法 都 是 从 UserDict `MutableMapping 和 Mapping 

这 些 超 类 继承 而 来 的 。 特 别 是 最 后 的 Mapping 类 ， 它 虽然 是 一 个 抽象 基 类 
(ABC) ， 但 它 却 提供 了 好 几 个 实用 的 方法 。 以 下 两 个 方法 值得 关注 。 


MutableMapping.update 


这 个 方法 不 但 可 以 为 我 们 所 直接 利用 ， 它 还 用 在 init 里， 让 构造 
方法 可 以 利用 传 入 的 各 种 参数 (其 他 映射 类 型 、 元 素 是 (key, value) 对 
的 可 迭代 对 象 和 键 值 参数 ) 来 新 建 实例 。 因 为 这 个 方法 在 背后 是 用 
self[key] = value 来 添加 新 值 的 ， 所 以 它 其 实 是 在 使 用 我 们 的 


setitem 方法 。 


I 


Mapping.get 


在 StrKeyDicto (示例 3-7) 中 ， 我 们 不 得 不 改写 get TIE, Gite 
的 表现 跟 __getitem 一 人 至。 而 在 示例 3-8 中 就 没 这 个 必要 了 ， 因 为 它 继 


承 了 Mapping.get 方法 ， 而 Python 的 源码 显示 ， 这 个 方法 的 实现 方式 跟 
StrKeyDictO.get 是 一 模 一 样 的 。 


~I 在 写 完 StrKeyDict 这 个 类 之 后 ， 我 读 到 了 Antonie Pitrou F 
的 “PEP 455 — Adding a key-transforming dictionary to collections” ° 文章 
附带 的 补丁 里 包含 了 一 个 叫 作 TransformDict 的 新 类 型 。 这 个 补丁 通 
it issue 18986 被 吸收 进 了 Python 3.5。” 为 了 试 试 这 个 类 ， 我 把 它 提取 出 
来 放 进 了 一 个 单独 的 模块 (在 本 书 代码 仓库 中 : 03-dict- 
set/transformdict.py) 。 比 起 StrKeyDict, TransformDict 的 通用 性 
更 强 ， 也 更 复杂 ， 因 为 它 把 键 存 成 字符 串 的 同时 ， 还 要 按照 它 原 来 的 样 
子 存 一 份 。 

“ 译 者 浏览 http: /Ibugs. python. eee a 相应 的 补丁 也 没有 被 吸收 进 


Python 3.5。 有 兴趣 的 读者 可 以 通过 这 个 链接 看 看 它 被 拒绝 的 原 
http://bugs.python.org/issue18986#msg243370 。 一 一 译 者 注 


之 前 我 们 见识 过 了 不 可 变 的 序列 类 型 ， 那 有 没有 不 可 变 的 字典 类 型 呢 ? XA 
说 吧 ， 在 标准 库 里 是 没有 这 样 的 类 型 的 ， 但 是 可 以 用 替身 来 代替 。 


3.7 不 可 变 映 射 类 型 


标准 库 里 所 有 的 映射 类 型 都 是 可 变 的 ， 但 有 时 候 你 会 有 这 样 的 需求 ， 比 如 不 
能 让 用 户 错误 地 修改 某 个 映射 。3.4.2 节 提 到 过 Pingo.io， 它 里 面 就 有 个 现成 
的 例子 。Pingo.io 人 board. pins, 里 面 的 数据 是 
GPIO 物理 针脚 的 信息 ， 我 们 当然 不 希望 用 户 一 个 豆 忽 就 把 这 些 信 息 给 改 

了 。 因为 硬件 方面 的 东 西 是 不 会 受 软件 影响 的 ， 所 以 如 果 把 这 个 映射 里 的 信 
息 改 了 ， 就 跟 物 理 上 的 元 件 对 不 上 号 了 。 


从 Python 3.3 开始 ，types 模块 中 引入 了 一 个 封装 类 名 叫 
MappingProxyType ° 如 果 给 这 个 类 一 个 映射 ， 它 会 返回 一 个 只 读 的 映射 
视图 。 虽 然 是 个 只 读 视 图 ， 但 是 它 是 动态 的 。 这 意味 着 如 果 对 原 映射 做 出 了 
改动 ， 我 们 通过 这 个 视图 可 以 观 有 察 到 ， 但 是 无 法 通过 这 个 视图 对 原 映射 做 出 
修改 。 示 例 3-9 简短 地 对 这 个 类 的 用 法 做 了 个 演示 。 


示例 3-9 用 MappingProxyType 来 获取 字典 的 只 读 实例 
mappingproxy 


>>> from ee import MappingProxyType 
>>> d = {1:'A'} 
>>> d_proxy = MappingProxyType(d) 


>>> d_proxy 
mappingproxy({1: 'A'}) 
>>> d_proxy[1] @ 

"A! 


>>> d_proxy[2] = 'x' @ 
Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
TypeError: 'mappingproxy' object does not support item assignment 
>>> d[2] = 'B' 
>>> d_proxy © 
mappingproxy({1: 'A', 2: 'B'}) 
>>> d_proxy[2] 
R 


>>> 


@d 中 的 内 容 可 以 通过 d_proxy 看 到 。 

四 但 是 通过 d_proxy 并 不 能 做 任何 修改 。 

© d_proxy 是 动态 的 ， 也 就 是 说 对 d 所 做 的 任何 改动 都 会 反馈 到 它 上 面 。 
因此 在 Pingo.io 中 我 们 是 这 样 用 它 的 : Board 的 具体 子 类 会 提供 一 个 包含 针 
脚 信息 的 私有 映射 成 员 ， 然 后 通过 公开 属性 .pins pe Rent IRE re 
的 客户 ， 而 .pins 属性 其 实 就 是 用 mappingproxy 实现 的 。 一 旦 这 样 写 好 
了 ， 客 户 就 不 能 对 这 个 映射 进行 任何 意外 的 添加 、 移 除 或 者 修改 操作 。8 


为 它 


& 
mob 
EC 
>H 


8 为 了 照顾 Python 2.7, 现 S 实 中 的 Pingo.io 没有 借用 MappingProxyType 来 实现 这 个 
只 在 Python 3.3 里 才 有 


到 了 这 里 ， 我 们 对 标准 库 中 的 大 多 数 映 射 类 型 都 有 了 一 些 了 解 ， 下 面 让 我 们 
移 步 到 集合 类 型 。 


3.8 Bet 


“ 集 ” 这 个 概念 在 Python 中 算是 比较 年 轻 的 ， 同 时 它 的 使 用 率 也 比较 低 。set 
和 MEHR TLS Hp RIE frozenset 直到 Python 2.3 才 首 次 以 模块 的 形式 
出 现 ， 然 后 在 Python 2.6 中 它们 升级 成 为 内 置 类 型 。 


` 本 书 中 “和 集 ” 或 者 “集合 ” 既 指 set， 也 指 frozenset。 当 “ 集 ” 仅 指 
代 set 类 时 ， 我 会 用 等 宽 字体 表示 ?。 


人“ 集 " 在 英文 中 就 是 set， 因 此 原 书 中 需要 用 等 宽 字体 来 区 分 特 指 和 泛 指 。 编者 注 


集合 的 本 质 是 许多 唯一 对 象 的 聚集 。 因 此 ， 集 合 可 以 用 于 去 重 : 


>>> 1 = ['spam', 'spam', 'eggs', 'spam'] 


集合 中 的 元 素 必须 是 可 散 列 的 ，set 类 型 本 身 是 不 可 散 列 的 ， 但 是 
frozenset 可 以 。 因 此 可 以 创建 一 个 包含 不 同 frozenset A set ° 


除了 保证 唯一 性 ， 集 合 还 实现 了 很 多 基础 的 中 绥 运 算 符 。 给 定 两 个 集合 a 和 
b, a | b 返回 的 是 它们 的 合集 ，a & b 得 到 的 是 交集 ， 而 a - b 得 到 的 
征 差 集 。 合 理 地 利用 这 些 操作 ， 不 仅 能 够 让 代码 的 行 数 变 少 ， 还 能 减少 

Python 程序 的 运行 时 间 。 这 样 做 同时 也 是 为 了 让 代码 更 易 读 ， 从 而 更 容易 判 
断 程序 的 正确 性 ， 因 为 利用 这 些 运算 符 可 以 省 去 不 必要 的 循环 和 逻辑 操作 。 


例如 ， 我 们 有 一 个 电子 邮件 地 址 的 集合 (haystack) ， 还 要 维护 一 个 较 小 
的 电子 邮件 地 址 集合 (needles) ， 然 后 求 出 needles 中 有 多 少 地 址 同时 
也 出 现在 了 heystack 里 。 借 助 集合 操作 ， 我 们 只 需要 一 行 代码 就 可 以 了 
( 见 示例 3-10) ° 


示例 3-10 needles 的 元 素 在 haystack 里 出 现 的 次 数 ， 两 个 变量 都 
是 set 类 型 


found = len(needles & haystack) 


如 采 不 使 用 交集 操作 的 话 ， 代 码 可 能 束 变 成 了 示例 3-11 里 那样 。 


示例 3-11 needles 的 元 素 在 haystack 里 出 现 的 次 数 (作用 和 示例 
3-10 中 的 相同 ) 


found = 0 
for n in needles: 
if n in haystack: 


found += 1 


示例 3-10 比 示例 3-11 的 速度 要 快 一 些 ， 男 一 方面 ， 示 例 3-11 可 以 用 在 任何 
可 和 迭代 对 象 needles 和 haystack 上 ， 而 示例 3-10 则 要 求 两 个 对 象 都 是 集 
合 就 算 手 头 没 有 集合 ， 我 们 也 可 以 随时 建立 集合 ， 如 示例 3- 
12 PTZR ° 


示例 3-12 needles 的 元 素 在 haystack 里 出 现 的 次 数 ， 这 次 的 代码 
可 以 用 在 任何 可 迭代 对 象 上 


found = len(set(needles) & set(haystack) ) 


# 男 一 种 写法 : 


found = len(set(needles).intersection(haystack) ) 


示例 3-12 里 的 这 种 写法 会 牵扯 到 把 对 象 转化 为 集合 的 成 本 ， 不 过 如 果 
needles 或 者 是 haystack 中 任意 一 个 对 象 已 经 是 集合 ， 那么 示例 3-12 的 
方案 可 能 就 比 示例 3-11 里 的 要 更 高 效 。 


以 上 的 所 有 例子 的 运行 时 间 都 能 在 3 ZMAG, ARA 10 000 个 元 素 的 
haystack 里 搜索 1000 个 值 ， 算 下 来 大 概 是 每 个 元 素 3 微 秒 


除了 速度 极 快 的 查找 功能 〈 这 也 得 归功 于 它 背 后 的 散 列 表 ) ， 内 置 的 set 和 
frozenset 提供 了 丰富 的 功能 和 操作 ， 不 但 让 创建 集 合 的 方式 丰富 多 彩 ， 
而 且 对 于 set 来 讲 ， 我 们 还 可 以 对 集 合 里 已 有 的 元 素 进行 修改 。 在 讨论 这 些 
操作 之 前 ， 先 来 看 一 下 相关 的 句法 。 


38.1 集合 字面 量 


除 空 集 之 外 ， 集 合 的 字面 量 一 一 {1}、{1i，2}， 等 等 
学 形式 一 模 一 样 。 如 有 果 是 空 集 ， 那 么 必须 写成 set( ) 的 形式 。 


Be 句法 的 陷阱 


不 要 忘 了 ， 如 果 要 创建 一 个 空 集 ， 你 必须 用 不 带 任何 参数 的 构造 方法 
set( )。 如 果 只 是 写成 人 的 形式 ， 跟 以 前 一 样 ， 你 创建 的 其 实 是 个 空 
=F HH o 


在 Python 3 里 面 ， 除 了 空 集 ， 集 合 的 字符 串 表 示 形 式 总 是 以 {. . .} 的 形式 
出 现 。 


af 


>>> s = {1} 
>>> type(s) 
<class 'set'> 
>>> S 

1} 

>>> s.pop() 

1 


set() 

A{1, 2, IJ 这 种 字面 量 句 法 相 比 于 构造 方法 (set([1, 2, 3])) 要 更 
快 且 更 易 读 。 后 者 的 速度 要 慢 一 些 ， 因 为 Python 必须 先 从 set 这 个 名 字 来 
查询 构造 方法 ， 然 后 新 建 一 个 列表 ， 最 后 再 把 这 个 列表 传 入 到 构造 方法 里 。 
但 是 如 果 是 像 {1，2，3} 这 样 的 字面 量 ，Python 会 利用 一 个 专门 的 叫 作 
BUILD_SET 的 字 字 码 来 创建 集合 


用 dis.dis (KERER) 来 看 看 两 个 方法 的 字 节 码 的 不 同 : 


>>> from dis import dis 
>>> dis('{1}') 
1 


© LOAD_CONST 
3 BUILD_SET 
6 RETURN_VALUE 
>>> dis('set([1])') 

1 


© LOAD_NAME 

3 LOAD_CONST 

6 BUILD_LIST 

9 CALL_FUNCTION (1 positional, 0 keyword 


12 RETURN_VALUE 


@ 检查 {1} 字面 量 背后 的 字 节 码 。 
O 特殊 的 字 节 码 BUILD_SET 几乎 完成 了 所 有 的 工作 。 
@set([1]) 的 字 节 码 。 


O 3 种 不 同 的 操作 代 苦 了 上 面 的 BUILD_SET: LOAD_NAME、 
BUILD_LIST 和 CALL_FUNCTION。 


由 于 Python 里 没有 针对 frozenset 的 特殊 字面 量 句 法 ， 我 们 只 能 采用 构造 
方法 。Python 3 里 frozenset 的 标准 字符 串 表示 形式 看 起 来 束 像 构造 方法 


调用 一 样 。 来 看 这 段 控制 台 对 话 : 


>>> ee 
frozenset({0, 2, 3, 5, 6, 7, 8, 9}) 


既然 提 到 了 名 法， 就 不 得 不 提 一 下 我 们 已 经 熟悉 的 列表 推导 ， 因 为 也 有 类 似 
的 方式 来 新 建 集合 。 


3.8.2 ”集合 推导 


Python 2.7 带 来 了 集合 推导 (setcomps) 和 之 前 在 3.2 节 里 讲 到 过 的 字典 推 
导 。 示 例 3-13 是 个 简单 的 例子 


示例 3-13 新 建 一 个 Latin-1 字符 集合 ， 该 集合 里 的 每 个 字符 的 Unicode 
名 字 里 都 有 “SIGN” 这 个 单词 


>>> from unicodedata import name @ 
>>> {chr(i) for i in range(32, 256) if "SIGN' in name(chr (i), ' ')} @ 


C S', 1 一 1 '¢'! TH" 1 yl "nu! j x!) '$', 'q', UE i ‘©! i 
1 rat Tat 1 I 1 1 '®', '%'} 


@ 从 unicodedata 模块 里 导入 name 函数 ， 用 以 获取 字符 的 名 字 。 
O 把 编码 在 32~255 之 间 的 字符 的 名 字 里 有 “SIGN” 单 词 的 挑 出 来 ， 放 到 一 个 


集合 里 。 


跟 句 法 相关 的 内 容 就 讲 到 这 里 ， 下 面 看 看 用 于 集合 类 型 的 丰富 操作 。 


3.8.3 ”集合 的 操作 


图 3-2 列 出 了 可 变 和 不 可 变 集 合 所 拥有 的 方法 的 概况 ， 其 中 不 少 是 运算 符 重 
载 的 特殊 方法 。 表 3-2 则 包含 了 数学 里 集合 的 各 种 操作 在 Python 中 所 对 应 的 
运算 符 和 方法 。 其 中 有 些 运算 符 和 方法 会 对 集 合 做 就 地 修改 〈 像 &=、 
difference_update， 等 等 ) ， 这 类 操作 在 纯粹 的 数学 世界 里 是 没有 意义 
的 ， 另 外 frozenset 也 不 会 实现 这 些 操作 。 


| Set | 
isdisjoint MutableSet 
le d 


lterable 


__iter__ 


图 3-2: collections.abc #, MutableSet 和 它 的 超 类 的 UML 类 图 
(箭头 从 子 类 指向 超 类 ， 抽 象 类 和 抽象 方法 的 名 称 以 斜体 显示 ， 其 中 省 略 了 


反 向 运算 符 方 法 ) 


AI 表 3-2 中 的 中 级 运算 符 需 要 两 侧 的 被 操作 对 象 都 是 集合 类 型 ， 但 
是 其 他 的 所 有 方法 则 只 要 求 所 传 入 的 参数 是 可 迭代 对 象 。 例 如 ， 想 求 4 
个 聚合 类 型 a、b、c 和 dd 的 合集 ， 可 以 用 a.union(b，c，d)， 这 里 


a VILED set, {HÆ b `c Ad 则 可 以 是 任何 类 型 的 可 和 迭代 对 象 。 


表 3-2: 集合 的 数学 运算 : 这 些 方法 或 者 会 生成 新 集合 ， 或 者 会 在 条 件 允 许 的 
情况 下 就 地 修改 集合 


ER 
U 大 , 2 } 
s |= z 


其 他 
KENIA 


s.intersection(it, ...) ` 
n È ， 
s.\_\_iand\_\_(z) f 
把 可 友 代 的 it 和 其 他 所 有 参数 转化 
s.intersection\_update(it, ...) 大 =e) 然后 求 得 ENS S AACS , 
然后 把 s 更 新 成 这 个 交集 
) 


s.union(it, ... 


So A slo ANZ) 


把 可 迭代 的 it 和 其 
s.update(it, ARE, RI REMA 
把 s 更 新 成 这 个 并 集 
poe NaC TR 
Eee ëO 


s&Z 
z&Ss 
s &=Z 
s |z 
z|s 
S-Z 
- S 


zai) 
Z s.difference(it ) m Ji : 其 他 所 有 参数 转化 
a 为 集合 ， 然 后 求 它们 和 s 的 差 集 
NES NER 


迭代 的 it 和 其 他 所 有 参数 转化 
s -= Z |s.difference\_update(it, ...) 大 AR T 求 它 们 和 S 的 差 集 ， 然后 把 
新 成 这 个 差 集 


s.symmetric\_difference(it) 求 s 和 set (it) 的 对 称 差 集 


SK s 和 z 的 对 称 差 集 


zAs s.\_\_rxor\_\_(Z) A 的 反问 操作 


迭代 的 it 和 其 他 所 有 参数 转化 


s.symmetric\_difference\_update(it, 为 合 ， 然 后 求 它们 和 s 的 对 称 
5 o> 
a R, 最 后 把 s 更 新 成 该 结果 
s ^= z |s.\_\_ixor\_\_(z) E s 更 新 成 它 与 z 的 对 称 差 集 


Ba 在 写 这 本 书 的 时 候 ，Python 有 个 缺陷 (issue 8743) ， 里 面 说 到 
set() 的 运算 符 (or、and、sub、xor 和 它们 相对 应 的 就 地 修改 运算 
符 ) 要 求 参数 必须 是 set ( ) 的 实例 ， 这 就 导致 这 些 运算 符 不 能 被 用 在 
collections.abc.Set 这 个 于 类 上 面 。 这 个 缺陷 已 经 在 Python 2.7 
和 Python 3.4 里 修复 了 ， 在 你 看 到 这 本 书 的 时 候 ， 它 已 经 成 了 历史 。 


表 3-3 里 列 出 了 返回 值 是 True 和 False 的 方法 和 运算 符 。 
表 3-3: 集合 的 比较 运算 符 ， 返 回 值 是 布尔 类 型 


= = = 


Ss. [s.isdisjoint(z) | 查看 s 和 z 是 否 不 相交 (没有 共同 元 素 ) | 


s.\_\_contains\_\_(e) 


s.\_\_le\_\_(z) 


= 


s.issubset(it) 


s.\_\_ge\_\_(z) 
S2Z s >= Z 
s.issuperset(it) 


除了 跟 数 学 上 的 集合 计算 有 关 的 方法 和 运 
性 而 添加 的 方法 ， 其 汇总 见于 表 3-4。 


表 3-4: 集合 类 型 的 其 他 方法 


G | 


集合 类 型 还 有 一 些 为 了 实用 


set | frozenset 
s.clear() 。 ERE ! 的 所 有 元 素 


len(s) 
从 s 中 移 除 一 个 元 素 并 返回 它 的 值 ， 若 s 为 空 ， 则 抛 日 
KeyError 异常 


| e l 
s.remove(e) ; 


到 这 里 ， 我 们 差不多 把 集合 类 型 的 特性 总 结 完了 。 
下 面 会 继续 探讨 字典 和 集合 类 型 背后 的 实现 ， 看 看 它们 是 如 何 借助 散 列 表 来 
实现 这 些 功能 的 。 读 完 这 音 余下 的 内 容 后 ， 就 算 再 遇 到 dict set 或 是 其 
他 这 一 类 型 的 一 些 莫 名 其 妙 的 表现 ， 你 也 不 会 手足 无 措 。 

3.9 dict 和 set 的 背后 


想 要 理解 Python 里 字典 和 集合 类 型 的 长 处 和 弱点 ， 它 们 背后 的 散 列表 是 绕 不 
开 的 一 环 。 


一 节 将 会 回答 以 下 几 个 问题 。 
。 Python 里 的 dict 和 set 的 效率 有 多 高 ? 
。 为 什么 它们 是 无 序 的 ? 


。 Python 对 象 都 可 以 当 作 dict 的 键 或 set 里 的 元 
R? 


。 为 什么 dict 的 键 和 set 元 素 的 顺序 是 跟 据 它们 被 添加 的 次 序 而 定 的 ， 
以 及 为 什么 在 映射 对 象 的 生命 周期 中 ， 这 个 顺序 并 不 是 一 成 不 变 的 ? 


。 为 什么 不 应 该 在 迭代 循环 dict 或 是 set 的 同时 往 里 添加 元 素 ? 


为 了 让 你 有 动力 研究 散 列表 ， 下 面 先 来 看 一 个 关于 dict 和 set 效率 的 实 
验 ， 实 验 对 象 里 大 概 有 上 百 万 个 元 素 ， 而 实验 结果 可 能 会 出 平 你 的 意料 。 


3.9.1 一 个 关于 效率 的 实验 


所 有 的 Python 程序 员 都 从 经 验 中 得 出 结论 ， 认 为 字典 和 集合 的 速度 是 非常 快 
的 。 接 下 来 我 们 要 通过 可 控 的 实验 来 证 实 这 一 点 。 


为 了 对 比 容器 的 大 小 对 dict ` set 3% list 的 in 运算 符 效率 的 影响 ， 我 创 
建 了 一 个 有 1000 万 个 双 精 度 浮 点 数 的 数组 ， 名 叫 haystack。 另 外 还 有 一 
个 包含 了 1000 个 浮 点 数 的 needles 数组 ， 其 中 500 个 数字 是 从 haystack 
里 挑 出 来 的 ， 另 外 500 个 肯定 不 在 haystack 里 。 


作为 dict 测试 的 基准 ， 我 用 dict.fromkeys() 来 建立 了 一 个 含有 1000 
个 浮 点 数 的 名 叫 haystack 的 字典 ， 并 用 timeit 模块 测试 示例 3-14 (与 
示例 3-11 相同 ) 里 这 上段 代码 运行 所 需要 的 时 间 。 


示例 3-14 在 haystack 里 查找 needles 的 元 素 ， 并 计算 找到 的 元 素 
的 个 数 


found = 0 
for n in needles: 
if n in haystack: 


found += 1 


然后 这 段 基 准 测试 重复 了 4 次 ， 每 次 都 把 haystack 的 大 小 变 成 了 上 一 次 的 
10 倍 ， 直 到 里 面 有 1000 万 个 元 素 。 最 后 这 些 测试 的 结果 列 在 了 表 3-5 中 。 


表 3-5: 用 in 运 算 符 在 5 个 不 同 大 小 的 haystack 字 上 典 里 搜索 1000 个 元 素 所 需 
要 的 时 间 。 代 码 运行 在 一 个 Core i7 笔 记 本 上 ，Python 版 本 是 3.4.0 (测试 计算 
的 是 示例 3-14 里 循环 的 运行 时 间 ) 


haystack 的 长 度 增长 系数 dict 花 费时 间 增长 系数 


0.000140s 


0.000228s 


1 000 000 1000x 0.000290s 
10 000 000 10 000x 0.000337s 


也 就 是 说 ， 在 我 的 笔记 本 上 从 1000 个 字典 键 里 搜索 1000 个 浮 点 数 所 需 的 时 
间 是 0.000202 秒 ， 把 同样 的 搜索 在 含有 10 000 000 个 元 素 的 字典 里 进行 一 
i, AA 0.000337 秒 。 换 句 话说 ， 在 一 个 有 1000 万 个 键 的 字典 里 查找 
1000 个 数 ， 花 在 每 个 数 上 的 时 间 不 过 是 0.337 微 秒 一 一 没 错 ， 相 当 于 平均 每 
个 数 差 不 多 三 分 之 一 微 秒 。 


作为 对 比 ， 我 把 haystack 换 成 了 set M list 类 型 ， 重 复 了 同样 的 增长 
大 小 的 实验 。 对 于 set， 除 了 上 面 的 那个 循环 的 运行 时 间 ， 我 还 测量 了 示例 
3-15 那 行 代码 ， 这 段 代 码 也 计算 了 needles 中 出 现在 haystack 中 的 元 素 
的 个 数 。 


示例 3-15 利用 交集 来 计算 needles 中 出 现在 haystack 中 的 元 素 的 
个 数 


found = len(needles & haystack) 


表 3-6 列 出 了 所 有 测试 的 结果 。 最 快 的 时 间 来 自 “ 和 集合 交集 花费 时 间 ” 这 一 
列 ， 这 一 列 的 结 采 是 示例 3-15 中 利用 集合 & 操作 的 代码 的 效果 。 不 出 所 料 
的 是 ， 最 糟糕 的 表现 来 自 “ 列 表 花 费时 间 ” 这 一 列 。 由 于 列表 的 背后 没有 散 列 
表 来 文 持 in 运算 符 ， 每 次 搜索 都 需要 扫描 一 次 完整 的 列表 ， 导 致 所 需 的 时 
间 跟 据 haystack 的 大 小 呈 线 性 增长 。 


表 3-6: 在 5 个 不 同 大 小 的 haystack 里 搜索 1000 个 元 素 所 需 的 时 间 ， 
haystack 分 别 以 字典 、 集合 和 列表 的 形式 出 现 o 测试 环境 是 一 个 有 Core i7 


处 理 器 的 笔记 本 ，Python 版 本 是 3.4.0 (测试 所 测量 的 代码 是 示例 3-14 中 的 循 
环 和 示例 3-15 的 集合 & 操 作 ) 


haystack 的 | 增长 | dict 花 费 | 增长 | 集合 花费 | 增长 | 集合 交集 | 增长 | 列表 花费 | 增长 系 
KE | 系数 | 时 间 | 系数 | 时 间 | 系数 | 花费 时 间 | 系数 | 时 间 数 
10 000 10x |0.000140s so oso 102 oan 00 oa 


100 000 100x =| 0.000228s 0.000241s 0.000163s 0.871560s | 82.57x 
1000000 | 1000~ | 0.000290s | 1.44x | 0.000332s 0.000250s 9.189616s | 870.56x 
97.948056s 


10 000 000 ae 0.000337s 0.000387s | 2.71x | 0.000314s | 3.61 oe 9278.90x 


如 果 在 你 的 程序 里 有 任何 的 磁盘 输入 /输出 ， 那 么 不 管 查询 有 多 少 个 元 素 的 
字典 或 集合 ， 所 耗费 的 时 间 都 能 忽略 不 计 (前 提 是 字典 或 者 集合 不 超过 内 存 
大 小 ) 。 可 以 仔细 看 看 跟 表 3-6 有 关 的 代码 ， 男 外 在 附录 A 的 示例 A-1 中 还 
有 相关 的 讨论 。 


把 字典 和 集合 的 运行 速度 之 快 的 事实 抓 在 手 里 之 后 ， 让 我 们 来 看 看 它 背 后 的 
原因 。 对 散 列 表 内 部 结构 的 讨论 ， 能 解释 诸如 为 什么 键 是 无 序 且 不 稳定 的 。 


3.9.2 字典 中 的 散 列表 


这 一 下 党 统 地 描述 了 Python 如 何 用 散 列 表 来 实现 dict 类 型 ， 有 些 细节 只 是 
一 笔 带 过 ， 像 CPython 里 的 一 些 优 化 技巧 ”就 没有 提 到 。 但 是 总 体 来 说 描述 


是 准确 的 。 


‘python 源码 dictobject.c 模块 里 有 丰富 的 注释 ， 另 外 延伸 阅读 中 有 对 《代码 之 美 》 一 书 的 引 


A 为 了 简单 起 见 ， 这 里 先 集中 讨论 dict 的 内 部 结构 ， 然 后 再 延 他 
到 集合 上 面 。 


散 列 表 其 实 是 一 个 稀 玻 数组 “总 是 有 空白 元 素 的 数组 称 为 稀 玻 数组 ) 。 在 一 
般 的 数据 结构 教材 中 ， 散 列表 里 的 单元 通常 叫 作 表 元 (bucket) 。 在 dict 
的 散 列表 当中 ， 每 个 键 值 对 都 占用 一 个 表 元 ， 每 个 表 元 都 有 两 个 部 分 ， 一 个 
古 对 键 的 引用 ， 男 一 个 是 对 值 的 引用 。 因 为 所 有 表 元 的 大 小 一 致 ， 所 以 可 以 
通过 偏 移 量 来 读 取 某 个 表 元 。 


因为 Python 会 设法 保证 大 概 还 有 三 分 之 一 的 表 元 是 空 的 ， 所 以 在 快要 达到 这 
个 国 值 的 时 候 ， 原 有 的 散 列 表 会 被 复制 到 一 个 更 大 的 空间 里 面 。 


如 果 要 把 一 个 对 象 放 入 散 列 表 ， 那 么 首 移 要 计算 这 个 元 素 键 的 散 列 值 。 
Python 中 可 以 用 hash( ) 方法 来 做 这 件 事情 ， 接 下 来 会 介绍 这 一 点 。 


01. 散 列 值 和 相等 性 


内 置 的 hash() 方法 可 以 用 于 所 有 的 内 置 类 型 对 象 。 如 果 是 自 定义 对 象 
调用 hash() 的 话 ， 实 际 上 运行 的 是 自 定义 的 __hash °- WRAD 
象 在 比较 的 时 候 是 相等 的 ， 那 它们 的 散 列 值 必须 相等 ， 否 则 散 列 表 就 不 
能 正常 运行 了 。 例 如 ， 如 果 1 == 1.0 NH, #84 hash(1) == 
hash(1.0) 也 必须 为 真 ， 但 其 实 这 两 个 数字 ( 整 型 和 浮 点 ) 的 内 部 结 
构 是 完全 不 一 样 的 。 萎 


为 了 让 散 列 值 能 够 胜任 散 列 表 索 引 这 一 角色 ， 它 们 必须 在 索引 空间 中 尽 
量 分 散 开 来 。 这 意味 着 在 最 理想 的 状况 下 ， 越 是 相似 但 不 相等 的 对 象 ， 
它们 散 列 值 的 差别 应 该 越 大 。 示 例 3-16 是 一 段 代 码 输 出 ， 这 上 段 代 码 被 用 
来 比较 散 列 值 的 二 进 制 表达 的 不 同 。 注 意 其 中 1 和 1.0 的 散 列 值 是 相同 
的 ， 而 1.0001、1.0002 和 1.0003 的 散 列 值 则 非常 不 同 。 


示例 3-16 在 32 位 的 Python 中 ，1、1.0001、1.0002 和 1.0003 这 几 
个 数 的 散 列 值 的 二 进 制 表达 对 比 (上 下 两 个 二 进 制 间 不 同 的 位 被 ! 
高 亮 出 来 ， 表 格 的 最 右 列 显示 了 有 多 少 位 不 相同 ) 


32-bit Python build 
1 00000000000000000000000000000001 


I= 0 
1.0 00000000000000000000000000000001 
1.0 00000000000000000000000000000001 
Porrt tort tod ! 1 ttt != 16 
1.0001 00101110101101010000101011011101 
1.0001 00101110101101010000101011011101 
LIO KIIP FIII] LIII IPO |! I= 20 


0 


N 


1.0002  01011101011010100001010110111001 
Pi DLL LI! 1217 
1.0003 00001100000111110010000010010110 


用 来 计算 示例 3-16 的 程序 见于 附录 A。 尽 管 程序 里 大 部 分 代码 都 是 用 来 
， 考 虑 到 完整 性 ， 我 还 是 把 全 部 的 代码 放 在 示例 A-3 中 


` M Python 3.3 F4, str ` bytes 和 datetime 对 象 的 散 列 
值 计 算 过 程 中 多 了 随机 的 “加 盐 ” 这 一 步 。 所 加 盐 值 是 Python 进程 内 
的 一 个 常量 ， 但 是 每 次 启动 Python 解释 器 都 会 生成 一 个 不 同 的 盐 
值 。 随 机 盐 值 的 加 入 是 为 了 防止 DOS 攻击 而 采取 的 一 种 安全 措 

施 。 在 __hash__ 特殊 方法 的 文档 里 有 相关 的 详细 信息 。 


了 解 对 象 散 列 值 相关 的 基本 概念 之 后 ， 我 们 可 以 深入 到 散 列 表 工 作 原理 
再 后 的 算法 了 。 


. 散 列 表 算 法 


为 了 获取 my_dict[search_key] 背后 的 值 ，Python 首先 会 调用 
hash(search_key) 来 计算 search_key 的 散 列 值 ， 把 这 个 值 最 低 
的 几 位 数字 当 作 偏 移 量 ， 在 散 列表 里 查找 表 元 《具体 取 几 位 ， 得 看 当前 
散 列 表 的 大 小 ) 。 若 找到 的 表 元 是 空 的 ， 则 抛 出 KeyError 异常 。 若 不 
是 空 的 ， 则 表 元 里 会 有 一 对 found_key :found_value。 这 时 候 
Python 会 检验 search_key == found_key 是 否 为 真 ， 如 果 它 们 相 
等 的 话 ， 就 会 返回 found_value。 


如 果 search_key 和 found_key 不 匹配 的 话 ， 这 种 情况 称 为 散 列 冲 
突 。 发 生 这 种 情况 是 因为 ， 散 列表 所 做 的 其 实 是 把 随机 的 元 素 映 射 到 只 
有 几 位 的 数字 上 ， 而 散 列表 本 身 的 索引 又 只 依赖 于 这 个 数字 的 一 部 分 。 
为 了 解决 散 列 冲突 ， 算 法 会 在 散 列 值 中 另外 再 取 几 位 ， 然 后 用 特殊 的 方 
法 处 理 一 下 ， 把 新 得 到 的 数字 再 当 作 索引 来 寻找 表 元 。 壮 若 这 次 找到 的 
表 元 是 空 的 ， 则 同样 抛 出 KeyError; 若非 空 ， 或 者 键 匹 配 ， 则 返回 这 
则 重复 以 上 的 步骤 。 图 3-3 展示 了 这 个 
算法 的 示意 图 。 


1 既然 提 到 了 整 型 ，CPython 的 实现 细节 
器 字 中 ， 那 么 它 的 散 列 值 就 是 它 本 身 的 值 


使 用 散 列 值 的 另 一 部 分 


计算 键 的 散 列 什 来 定位 散 列表 中 的 另 一 行 


使 用 散 列 值 的 一 
部 分 来 定位 散 列 
AR A 


是 是 


图 3-3: 从 字典 中 取 值 的 算法 流程 图 ， 给 定 一 个 键 ， 这 个 算法 要 么 返回 
一 个 值 ， 要 么 抛 出 KeyError 异常 


添加 新 元 素 和 更 新 现 有 键 值 的 操作 几乎 跟 上 面 一 样 。 只 不 过 对 于 前 者 ， 
在 发 现 空 表 元 的 时 候 会 放 入 一 个 新 元 素 ， 对 于 后 者 ， 在 找到 相对 应 的 表 
元 后 ， 原 表 里 的 值 对 象 会 被 奉 换 成 新 值 。 


另外 在 插入 新 值 时 ，Python 可 能 会 按照 散 列表 的 拥挤 程度 来 决定 是 否 
重新 分 配 内 存 为 它 扩容 。 如 果 增 加 了 散 列 表 的 大 小 ， 那 散 列 值 所 占 的 位 
人 
M 突 S 2 o 


表面 上 看 ， 这 个 算法 似乎 很 费事 ， 而 实际 上 就 算 dict 里 有 数 百 万 个 元 
素 ， 多 数 的 搜索 过 程 中 并 不 会 有 冲突 发 生 ， 平 均 下 来 每 次 搜索 可 能 会 有 
一 到 两 次 冲突 。 在 正常 情况 下 ， 就 算是 最 不 走运 的 键 所 遇 到 的 冲突 的 次 
数 用 一 只 手 也 能 数 过 来 。 


了 解 dict 的 工作 原理 能 让 我 们 知道 它 的 所 长 和 所 短 ， 以 及 从 它 衍生 而 
来 的 数据 类 型 的 优 缺 点 。 下 面 就 来 看 看 dict 这 些 特点 背后 的 原因 。 


里 有 一 条 是 : 如 果 有 一 个 整 型 对 象 ， 而 且 它 能 被 存 进 一 个 机 


了 2 在 散 列 冲突 的 情况 下 ， 用 C 语言 写 的 用 来 打 乱 散 列 值 位 的 算法 的 名 字 很 有 意思 ， 叫 perturb。 详 


J CPython 源码 里 的 dictobject.c (https://hg.python.org/cpython/file/tip/Objects/dictobject.c) ° 


3.9.3 dict 的 实现 及 其 导致 的 结果 
下 面 的 内 容 会 讨论 使 用 散 列表 给 dict 带 来 的 优势 和 限制 都 有 哪些 。 
01. 键 必须 是 可 散 列 的 


0 


N 


一 个 可 散 列 的 对 象 必须 满足 以 下 要 求 。 


(1) 支持 hash() HRA, FHM hash__() 方法 所 得 到 的 散 列 值 是 
不 变 的 。 


(2) 文 持 通过 __eq_( ) 方法 来 检测 相等 性 。 
(3) 车 a == b 为 真 , 则 hash(a) == hash(b) 也 为 真 


所 有 由 用 户 目 定 义 的 对 象 默认 都 是 可 散 列 的 ， 因 为 它们 的 散 列 值 由 
id() 来 获取 ， 而 且 它 们 都 是 不 相等 的 。 


By 如 果 你 实现 了 一 个 类 的 eq_ DZ, HETE Bee JZ 
的 ， 那 么 它 一 定 要 有 个 恰当 的 __hash__ 方法 , 保证 在 a == b 
为 真 的 情况 下 hash(a) == hash(b) 也 必定 为 真 。 否 则 就 会 破坏 
ee eae S ee 
可 靠 性 ， 这 个 后 果 是 非常 可 怕 的 。 另 一 方面 ， 如 果 一 个 含有 目 定 义 
的 __eq 依赖 的 关 处 于 可 变 的 状态 那 就 不 要 在 这 个 类 中 实现 
_ 方法 ， 因 为 它 的 实例 是 不 可 散 列 的 。 


.字典 在 内 存 上 的 开销 巨大 


HSA ROU, MBO CYS ERA, SBE ES H E 
的 效率 低下 。 举例 而 言 ， 如 果 你 需要 存放 数量 巨大 的 记录 ， 那 么 放 在 由 
元 组 或 是 具名 元 组 构成 的 列表 中 会 是 比较 好 的 选择 ;， 最 好 不 要 根据 
eh ae See ia OA 
束 能 节省 空间 的 原因 有 两 个 ;其 一 是 HEA T OUR BRAY s 间 ， 其 二 
征 无 需 把 记录 中 字段 的 名 字 在 每 个 元 素 里 都 存 一 遍 


在 用 户 自 定义 的 类 型 中 ，_ slots _ 属性 可 以 改变 实例 属性 的 存储 方 
式 ， 由 dict 变 成 tuple， 相 关 细 市 在 9.8 TARTI o 


记 住 我 们 现在 讨论 的 是 空间 优化 。 如 果 你 手头 有 几 百 万 个 对 象 ， 而 你 的 
机 器 有 几 个 GB 的 内 存 ， 那 么 空间 的 优化 工作 可 以 等 到 真正 需要 的 时 候 


再 开始 计划 ， 因 为 优化 往往 是 可 维护 性 的 对 立 面 。 
03. 键 查询 很 快 


dict 的 实现 是 典型 的 空间 换 时 间 : 字典 类 型 有 着 巨大 的 内 存 开销 ， 但 
它们 提供 了 无 视 数 据 量 大 小 的 快速 访问 只 要 字典 能 被 装 在 内 存 里 
正如 表 3-5 所 示 ， 如 果 把 字典 的 大 小 从 1000 个 元 素 增加 到 10 000 000 
个 ， 查 询 时 间 也 不 过 是 原来 的 2.8 倍 ， 从 0.000163 秒 增加 到 了 0.00456 
A 味 着 在 一 个 有 1000 万 个 元 z 的 字典 里 ， 每 秒 能 进行 200 万 个 
oe SY 


. 键 的 次 序 取决 于 添加 顺序 


当 往 dict 里 添加 新 键 而 又 发 生 散 列 神 突 的 时 候 ， 新 键 可 能 会 补 安 排 存 
放 到 另 一 个 位 置 。 于 是 下 面 这 种 情况 就 会 发 生 : H dict([key1, 
value1), (key2, value2)] 和 dict([key2, value2], 
[key1, value1]) 得 到 的 两 个 字典 ， 在 进行 比较 的 时 候 ， 它 们 是 相等 
的 ; 但 是 如 果 在 key1 和 key2 被 添加 到 字典 里 的 过 程 中 有 冲突 发 生 的 
话 ， 这 两 个 键 出 现在 字典 里 的 顺序 是 不 一 样 的 。 


示例 3-17 展示 了 这 个 现象 。 这 个 示例 用 同样 的 数据 创建 了 3 个 字典 ， 唯 
一 的 区 别 就 是 数据 出 现 的 顺序 不 一 样 。 可 以 看 到 ， 虽 然 键 的 次 序 是 乱 
的 ， 这 3 个 字典 仍然 被 视 作 相等 的 。 


3-17 dialcodes.py 将 同样 的 数据 以 不 同 的 顺序 添加 到 3 个 字 


0 


D 


# 世界 人 口 数量 前 10 位 国家 的 电话 


[x] 
di 


DIAL_CODES = [ 

(86, 'China'), 

(91, 'India'), 

(1, 'United States'), 
(62, 'Indonesia'), 
(55, 'Brazil'), 

(92, 'Pakistan'), 
(880, 'Bangladesh'), 
(234, 'Nigeria'), 
(7, 'Russia'), 

(81, 'Japan'), 

] 


di = dict(DIAL_CODES) @ 
print('d1:', d1.keys()) 

d2 = dict(sorted(DIAL_CODES)) @ 
print('d2:', d2.keys()) 


0 


Ul 


d3 = dict(sorted(DIAL_CODES, key=lambda x:x[1])) © 
print('d3:', d3.keys()) 
assert d1 == d2 and d2 == d3 @ 


@ 创建 d1 的 时 候 ， 数 据 元 组 的 顺序 是 按照 国家 的 人 口 排名 来 决定 的 。 


@ 创建 d2 的 时 候 ， 数 据 元 组 的 顺序 是 按照 国家 的 电话 区 号 来 决定 的 。 


@ 创建 d3 的 时 候 ， 数 据 元 组 的 顺序 是 按照 国家 名 字 的 英文 拼写 来 决定 
的 。 


@ 这 些 字 典 是 相等 的 ， 因 为 它们 所 包含 的 数据 是 一 样 的 。 示 例 3-18 里 
征 上 面 例子 的 输出 。 


示例 3-18 dialcodes.py 的 输出 中 ，3 个 字典 的 键 的 顺序 是 不 一 样 的 


di: dict_keys([880, 1, 86, 55, 7, 234, 91, 92, 62, 81]) 


d2: dict_keys([880, 1, 91, 86, 81, 55, 234, 7, 92, 62]) 
d3: dict_keys([880, 81, 1, 86, 55, 7, 234, 91, 92, 62]) 


. 往 字 典 里 添加 新 键 可 能 会 改变 已 有 键 的 顺序 


无 论 何 时 往 字典 里 添加 新 的 键 ，Python 解释 器 都 可 能 做 出 为 字典 扩容 的 
决定 。 扩 容 导 致 的 结 采 束 古 要 新 建 一 个 更 大 的 散 列 表 ， 并 把 字典 里 已 有 
的 元 素 添 加 到 新 表 里 。 这 个 过 程 中 可 能 会 发 生 新 的 散 列 冲突 ， 导 致 新 散 
列表 中 键 的 次 序 变 化 。 要 注意 的 是 ， 上 面 提 到 的 这 些 变化 是 否 会 发 生 以 
及 如 何 发 生 ， 都 依赖 于 字典 背后 的 具体 实现 ， 因 此 你 不 能 很 自信 地 说 自 
己 知道 背后 发 生 了 什么 。 如 果 你 在 迭代 一 个 字典 的 所 有 键 的 过 程 中 同时 
对 字典 进行 修改 ， 那 么 这 个 循环 很 有 可 能 会 跳 过 一 些 键 一 一 甚至 是 跳 过 
那些 字典 中 已 经 有 的 键 。 


由 此 可 知 ， 不 要 对 字典 同时 进行 迭代 和 修改 。 如 果 想 扫描 并 修改 一 个 字 
典 ， 最 好 分 成 两 步 来 进行 : 首先 对 字典 迭代 ， 以 得 出 需要 添加 的 内 容 ， 
把 这 些 内 容 放 在 一 个 新 字典 里 ;和 迭代 结束 之 后 再 对 原 有 字典 进行 更 新 。 


本 在 Python3 中 ，,keys()、.items() 和 ,values() 方法 
返回 的 都 是 字典 视图 。 也 就 是 说 ， 这 些 方 法 返回 的 值 更 像 集合 ， 
不 是 像 Python 2 那样 返回 列表 。 视 图 还 有 动态 的 特性 ， 它 们 可 以 实 
时 反馈 字典 的 变化 。 


现在 已 经 可 以 把 学 到 的 有 关 散 列表 的 知识 应 用 在 集合 上 面 了 。 


3.9.4 _ set 的 实现 以 及 导致 的 结果 


set 和 frozenset 的 实现 也 依赖 散 列 表 ， 但 在 它们 的 散 列 表 里 存 放 的 只 有 
元 素 的 引用 〈 就 像 在 字典 里 只 存放 键 而 没有 相应 的 值 ) ° Æ set 加 入 到 
Python 之 前 ， 我 们 都 是 把 字典 加 上 无 意义 的 值 当 作 集合 来 用 的 。 


在 3.9.3 节 中 所 提 到 的 字典 和 散 列 表 的 几 个 特点 ， 对 集合 来 说 几乎 都 是 适用 
的 。 为 了 避免 太 多 重复 的 内 容 ， 这 些 特点 总 结 如 下 。 


集合 里 的 元 素 必须 是 可 散 列 的 。 
集合 很 消耗 内 存 。 
可 以 很 高 效 地 判断 元 素 是 否 存在 于 某 个 集合 。 
元 素 的 次 序 取决 于 被 添加 到 集合 里 的 次 序 。 
合 里 添加 元 素 ， 可 能 会 改变 集合 里 已 有 元 素 的 次 序 。 


3.10 ”本 章 小 结 


字典 算得 上 是 Python 的 基石 。 除 了 基本 的 dict 之 外 ， 标 准 库 还 提供 现成 且 
好 用 的 特殊 映射 类 型 ， 比 如 defaultdict、orderedDict、ChainMap 
和 Counter。 这 些 映射 类 型 都 属于 collections 模块 ， 这 个 模块 还 提供 
了 便于 扩展 的 UserDict 类 。 


大 多 数 映射 类 型 都 提供 了 两 个 很 强大 的 方法 : setdefault 和 update ° 
setdefault 方法 可 以 用 来 更 新 字典 里 存放 的 可 变 值 (比如 列表 ) ， 从 而 避 
免 了 重复 的 键 搜索 。update 方法 则 让 批量 更 新 成 为 可 能 ， 它 可 以 用 来 插入 
新 值 或 者 更 新 已 有 键 值 对 ， 它 的 参数 可 以 是 包含 (key, value) 这 种 键 值 
对 的 可 迭代 对 象 ， 或 者 关键 字 参 数 。 了 映射 类 型 的 构造 方法 也 会 利用 update 
sa 户 可 以 使 用 别 的 映射 对 象 、 可 迭代 对 象 或 者 关键 字 参 数 来 创建 新 
WE o 


在 映射 类 型 的 API 中 ， 有 个 很 好 用 的 方法 是 __missing ， 当 对 象 找 不 到 
某 个 键 的 时 候 ， 可 以 通过 这 个 方法 目 定 义 会 发 生 什 么 。 


collections.abc 模块 提供 了 Mapping 和 MutableMapping 这 两 个 抽 
象 基 类 ， 利 用 它们 ， 我 们 可 以 进行 类 型 查询 或 者 引用 。 不 太 为 人 所 知 的 


MappingProxyType 可 以 用 来 创建 不 可 变 上 映射 对 象 ， 它 被 封装 在 types 
模块 中 。 另 外 还 有 Set M MutableSet 这 两 个 抽象 基 类 。 


dict 和 set 背后 的 散 列 表 效 率 很 高 ， 对 它 的 了 解 越 深 入 ， 就 越 能 理解 为 什 
么 锌 保存 的 元 素 会 呈现 出 不 同 的 顺序 ， 以 及 已 有 的 元 素 顺 序 会 发 生变 化 的 原 
o 同时， 速度 是 以 牺牲 空间 为 代价 而 换 来 的 。 


3.11 ”延伸 阅读 


Python 标准 库 中 的 “8.3. collections—Container datatypes” 一 六 提 到 了 关于 一 些 
轴 射 类 型 的 例子 和 使 用 技巧 。 如 果 想 要 创建 新 的 映射 类 型 ， 或 者 是 体会 一 下 
现 有 的 映射 类 型 的 实现 方式 ，Python {H Lib/collections/__init__.py 的 源 
码 是 一 个 很 好 的 参考 。 


《Python Cookbook (第 3 有 版， 中 文 版 》 (David Beazley 和 Brian K. Jones 
著 ) 的 第 1 章 中 有 20 个 关于 数据 结构 的 使 用 技巧 ， 大 多 数 都 在 讲 dict 的 
巧妙 用 法 。 


“Python 的 字典 类 : 如 何 打 造 全 能 战士 ?是 《代码 之 美 》 第 18 章 的 标题 ， 这 
一 章 集中 解释 了 Python 字典 背后 的 工作 原理 。A.M. Kuchling 是 这 一 章 的 作 
者 ， 同 时 他 还 是 Python 的 核心 开发 者 ， 并 撰写 了 很 多 Python 的 官方 文档 和 
指南 。 同 时 CPython 模块 里 的 dictobject.c 源 文件 还 提供 了 大 量 的 注 
F% ° Brandon Craig Rhodes 的 讲座 “The Mighty Dictionary” 对 散 列 表 做 了 很 精 
彩 的 讲解 ， 有 趣 的 是 他 的 幻灯 片 里 也 包含 了 大 量 的 表格 。 


关于 为 什么 要 在 语言 里 加 入 集合 这 种 数据 类 型 ， 当 初 也 是 有 一 番 考 量 的 。 有 具 
体 情况 在 “PEP 218 — Adding a Built-In Set Object Type” 中 有 所 记录 。 在 PEP 
128 刚刚 通过 的 时 候 ， 还 没有 针对 set 的 特殊 字面 量 句法 。 后 来 Python 3 里 
加 入 了 对 set 字面 量 句 法 的 文 持 ， 然 后 这 个 实现 又 被 向 后 兼容 到 了 Python 
2.7 里 ， 同 时 被 移植 的 还 有 dict 和 set 推导 。“PEP 274 — Dict 
Comprehensions” 就 是 字典 推导 的 出 生 证 ;然而 我 找 不 到 任何 关于 集合 推导 的 
PEP， 当 然 很 有 可 能 是 因为 这 两 个 功能 太 接 近 了 。 


杂谈 
我 的 朋友 Geraldo Cohen 曾经 说 过 ，Python 的 特点 是 “简单 而 正确 ”。 
dict 类 型 正 是 这 一 特点 的 完美 体现 一 一 对 它 的 优化 只 为 一 个 日 标 : 更 


好 地 实现 对 随机 键 的 读 取 。 而 优化 的 结果 非常 好 ， 由 于 速度 快 而 且 够 健 
壮 ， 它 大 量 地 应 用 于 Python 的 解释 器 当中 。 如 果 对 排序 有 要 求 ， 那 么 还 


可 以 选择 orderedDict。 然 而 对 于 映射 类 型 来 说 ， 保 持 元 素 的 顺序 并 
不 是 一 个 常用 需求 ， 因 此 会 把 它 排 除 在 核心 功能 之 外 ， 而 以 标准 库 的 形 
式 提供 其 他 衍生 的 类 型 。 


与 之 形成 鲜明 对 比 的 是 PHP。 在 PHP 手册 中 ， 数 组 的 描述 如 下 : 


PHP 中 的 数组 实际 上 有 是 一 个 有 序 的 映射 一 一 映射 类 型 存放 的 是 键 什 
对 。 这 个 映射 类 型 被 优化 为 可 充当 不 同 的 角色 。 它 可 以 当 作 数组 、 
列表 (向量) 、 散 列表 (映射 类 型 的 一 种 实现 ) 、 字 典 、 集 合 类 
型 、 栈 、 队 列 或 其 他 可 能 的 数据 类 型 。 


单 任 这 段 话 ， 我 无 法 想象 PHP 把 1ist 和 orderedDict 混合 实现 的 
成 本 有 多 大 。 


本 书 前 两 章 的 目的 是 展示 Python 中 的 集合 类 型 为 特定 的 使 用 场景 做 了 怎 
样 的 优化 。 我 特意 强调 了 在 list 和 dict 的 常规 用 法 之 外 还 有 那些 特 
殊 的 使 用 情景 。 


在 过 到 Python 之 前 ， 我 主要 使 用 Perl、PHP 和 JavaScript 做 网 站 开发 。 
我 很 喜欢 这 些 语言 中 跟 映 射 类 型 相关 的 字面 量 句 法 特性 。 某 些 时 候 我 不 
得 不 使 用 Java 和 C， 然 后 我 就 会 疯狂 地 想念 这 些 特性 。 好 用 的 映射 类 型 
的 字面 量 句法 可 以 帮助 开发 者 轻松 实现 配置 和 表格 相关 的 开发 ， 也 能 让 
我 们 很 方便 地 为 原型 开发 或 者 测试 准备 好 数据 容器 。 Java 由 于 没有 这 个 
特性 ， 不 得 不 用 复杂 且 宛 长 的 XML SRE ° 


JSON 被 当 作 “瘦身 版 XML”。 在 很 多 情景 下 ，JSON 都 成 功 取代 了 
a 由 于 拥有 紧 读 的 列表 和 字典 表达 ，JSON 格式 可 以 完美 地 用 于 数 
AC o 


PHP 和 Ruby 的 散 列 语法 借鉴 了 Penl， 它 们 都 用 => 作为 键 和 值 的 连接 。 
JavaScript 则 从 Python 那儿 偷 师 ， 使 用 了 :。 而 JSON 又 从 JavaScript 发 
展 而 来 ， 它 的 语法 正好 是 Python 句法 的 子 集 。 因 此 ， 除 了 在 true、 
false 和 null 这 几 个 值 的 拼写 上 有 出 入 之 外 ，JSON 和 Python 是 完全 
兼容 的 。 于 是 ， 现 在 大 家 用 来 交换 数据 的 格式 全 是 Python 的 dict 和 
list ° 


简单 而 正确 。 


第 4 章 文本 和 字 节 序列 


人 类 使 用 文本 ， 计 算 机 使 用 字 节 序列 。? 


Esther Nam 和 Travis Fischer 
“Character Encoding and Unicode in Python” 


'PyCon 2014, “Character Encoding and Unicode in Python 演讲 的 第 12 张 幻灯 片 幻 灯 片 ， 视 频 。 


Python 3 明确 区 分 了 人 类 可 读 的 文本 字符 串 和 原始 的 字 市 序列 。 隐 式 地 把 字 
万 序列 转换 成 Unicode 文本 已 成 过 去 。 本 章 将 要 讨论 Unicode 字符 串 、 二 进 
制 序列 ， 以 及 在 二 者 之 间 转 换 时 使 用 的 编码 。 

深入 理解 Unicode 对 你 可 能 十 分 重要 ， 也 可 能 无 天 紧要 ， 这 取决 于 Python 编 
程 的 场景 。 说 到 底 ， 本 章 洱 盖 的 问题 对 只 处 理 ASCII 文本 的 程序 员 没 有 影 
响 。 但 是 即便 如 此 ， 也 不 能 避 而 不 谈 字 符 串 和 字 节 序列 的 区 别 。 此 外 ， 你 会 
发 现 专门 的 二 进 制 序列 类 型 所 提供 的 功能 ， 有 些 是 Python 2 中 “全 功能 ”的 
str 类 型 不 具有 的 。 

本 章 将 讨论 下 壕 话 题 ; 

FÍF ` BAMF TK 

bytes ` bytearray 和 memoryview 等 二 进 制 序列 的 独特 特性 

全 部 Unicode 和 陈旧 字符 集 的 编 解码 器 

避免 和 处 理 编码 错误 

处 理 文本 文件 的 最 佳 实践 

默认 编码 的 陷阱 和 标准 IO 的 问题 

规范 化 Unicode 文本 ， 进 行 安全 的 比较 

规范 化 、 大 小 写 折 车 和 葵 力 移 除 首 调 符 号 的 实用 函数 

使 用 locale 模块 和 PyUCA 库 正确 地 排序 Unicode 文本 

Unicode 数据 库 中 的 字符 元 数据 


。 能 处 理 字符 串 和 字 节 序列 的 双 模式 API 
接 下 来 先 从 字符 、 码 位 和 字 节 序列 开始 。 
4.1 字符 问题 


“字符 串 " 是 个 相当 简单 的 概念 : 一 个 字符 种 是 一 个 字符 序列 。 问 题 出 在 “ 字 
Fy Pz NA 
符 ” 的 定义 上 。 


在 2015 年 , “字符 ”的 最 佳 定 义 是 Unicode 字符 。 因 此 ， 从 Python 3 的 str 
对 象 中 获取 的 元 素 是 Unicode 字符 ， 这 相当 于 从 Python 2 的 unicode 对 象 
中 获取 的 元 素 ， 而 不 是 从 Python 2 的 str 对 象 中 获取 的 原始 字 节 序列 。 


Unicode 标准 把 字符 的 标识 和 具体 的 字 世 表述 进行 了 如 下 的 明确 区 分 。 


。 字 符 的 标识 ， 即 码 位 ， 是 0~1 114 111 的 数字 (十 进 制 ) ， 在 Unicode 标 
准 中 以 4~6 个 十 六 进 制 数字 表示 ， 而 且 加 前 级 “U+”。 例 如 ， 字 和 母 A 的 
码 位 是 U+0041， 欧 元 符号 的 码 位 是 U+20AC， 高 音 谱 号 的 码 位 是 
U+1D11E。 在 Unicode 6.3 中 (这 是 Python 3.4 使 用 的 标准 ) ， 约 10% 
的 有 效 码 位 有 对 应 的 字符 。 


字符 的 具体 表述 取决 于 所 用 的 编码 。 编 码 是 在 码 位 和 字 节 序列 之 间 转 换 
时 使 用 的 算法 。 在 UTF-8 编码 中 ，A (U+0041) 的 码 位 编码 成 单个 字 节 
\x41， 而 在 UTF-16LE 编码 中 编码 成 两 个 字 季 \X41NXX00。 再 举 个 例 
子 ， 欧 元 符号 (U+20AC) 在 UTE-8 编码 中 是 三 个 字 节 一 一 
\xe2\x82\xac, MØ UTF-16LE 中 编码 成 两 个 字 节 : \xac\x20 ° 


把 码 位 转换 成 字 节 序列 的 过 程 是 编码 ;把 字 世 序列 转换 成 码 位 的 过 程 是 解 
码 。 示 例 4-1 阐释 了 这 一 区 分 。 


示例 4-1 编码 和 解码 


>>> s = 'café' 
>>> len(s) #@ 
4 


>>> b = s.encode('utf8') #@ 
>>> b 

b'caf\xc3\xa9' # ® 

>>> len(b) #0 

5 


>>> b.decode('utf8') # © 
"café 


O 'café' 字符 串 有 4 个 Unicode 字符 。 

@ 使 用 UTF-8 把 str 对 象 编码 成 bytes 对 象 。 

© bytes 字面 量 以 b 开头 。 

O 字 节 序列 b 有 5 个 字 节 (在 UTF-8 中 ，“€” 的 码 位 编码 成 两 个 字 节 ) ° 


© 使 用 UTF-8 把 bytes 对 象 解码 成 str 对 象 。 


~I 如 果 想 帮助 自己 记 住 .decode() 和 ,encode() 的 区 别 ， 可 以 
EF Ar TAG CHEE La OD Pe a, FEL Unicode 字符 串 想 成 “< 人 类 
FYE" SCAR o FRA, FEST APA CAR BY SEA SOARS FF E E 

码 ， 而 把 字符 串 变 成 用 于 存储 或 传输 的 字 节 序列 就 是 编码 。 


虽然 Python 3 的 str 类 型 基本 相当 于 Python 2 的 unicode 类 型 ， 只 不 过 是 
换 了 个 新 名 称 ， 但 是 Python 3 的 bytes 类 型 却 不 是 把 str 类 型 换个 名 称 那 
么 简单 ， 而 且 还 有 关系 紧密 的 bytearray 类 型 。 因 此 ， 在 讨论 编码 和 解码 
的 问题 之 前 ， 有 必要 先 来 介绍 一 下 二 进 制 序列 类 型 。 


4.2 STE 


新 的 二 进 制 序列 类 型 在 很 多 方面 与 Python 2 的 str 类 型 不 同 。 首 先 要 知 
道 ，Python 内 置 了 两 种 基本 的 二 进 制 序列 类 型 : Python 3 引入 的 不 可 变 
bytes 类 型 和 Python 2.6 添加 的 可 变 bytearray 类 型 。 (Python 2.6 也 引 
入 了 bytes 类 型 ， 但 那 只 不 过 是 str 类 型 的 别名 ， 与 Python 3 的 bytes 
类 型 不 同 。) 

bytes 或 bytearray 对 象 的 各 个 元 素 是 介 于 0~255 (G) 之 间 的 整数 ， 而 
不 像 Python 2 的 str 对 象 那 样 是 单个 的 字符 。 然 而 ， 二 进 制 序列 的 切片 始 
终 是 同一 类 型 的 二 进 制 序列 ， 包 括 长 度 为 1 的 切片 ， 如 示例 4-2 所 示 。 


示例 4-2 ”包含 5 个 字 节 的 bytes 和 bytearray TR 


>>> cafe = bytes('café', encoding='utf_8') @ 
>>> cafe 

b'caf\xc3\xag' 

>>> cafe[0] @ 

99 

>>> cafe[:1] © 


b'c' 

>>> cafe_arr = bytearray(cafe) 
>>> cafe_arr @ 
bytearray(b'caf\xc3\xa9g' ) 

>>> cafe_arr[-1:] © 
bytearray(b'\xag9' ) 


O bytes 对 象 可 以 从 str 对 象 使 用 给 定 的 编码 构建 。 
@ 各 个 元 素 是 range (256) 内 的 整数 。 
© bytes 对 象 的 切片 还 是 bytes 对 象 ， 即 使 是 只 有 一 个 字 节 的 切片 。 


O bytearray 对 象 没 有 字面 量 句法 ， 而 是 以 bytearray() 和 字 布 序列 字 
面 量 参数 的 形式 显示 。 


© bytearray 对 象 的 切片 还 是 bytearray 对 象 。 


` my_bytes[0] 获取 的 是 一 个 整数 ， 而 my_bytes[:1] 返回 的 是 
一 个 长 度 为 1 的 bytes 对 象 一 这 一 点 应 该 不 会 让 人 意外 。s[0] == 
s[ :1] 只 对 str 这 个 序列 类 型 成 立 。 不 过 ，str 类 型 的 这 个 行为 十 分 
罕见 。 对 其 他 各 个 序列 类 型 来 说 ，s [i] 返回 一 个 元 素 , 而 s[i:i+1] 
返回 一 个 相同 类 型 的 序列 ， 里 面 是 s[i] 元 素 。 


虽然 二 进 制 序列 其 实 是 整数 序列 ， 但 是 它们 的 字面 量 表示 法 表明 其 中 有 
ASCII 文本 。 因 此 ， 各 个 字 节 的 值 可 能 会 使 用 下 列 三 种 不 同 的 方式 显示 。 
。 可 打印 的 ASCII 范围 内 的 字 节 (从 空格 到 ~) ， 使 用 ASCII 字符 本 身 。 


。 Lee ` 换行 符 、 回 车 符 和 \ 对 应 的 字 节 ， 使 用 转 义 序列 \t、\n、\\r 
H\\e 


。 其 他 字 市 的 值 ， 使 用 十 六 进 制 转 义 序列 (例如 ，\x99 GET) 。 


因此 ， 在 示例 4-2 中 ， 我 们 看 到 的 是 b'caf\xc3\xa9': 前 3 个 字 节 
b'caf' 在 可 打印 的 ASCII 范围 内 ， 后 两 个 字 节 则 不 然 。 


除了 格式 化 方法 (format 和 format_map) 和 几 个 处 理 Unicode 数据 的 方 
法 (包括 casefold、isdecimal、isidentifier、isnumeric、 
isprintable 和 encode) 之 外 ，str 类 型 的 其 他 方法 都 支持 bytes 和 
bytearray 类 型 。 这 意味 着 ， 我 们 可 以 使 用 熟悉 的 字符 串 方 法 处 理 二 进 制 


序列 ， 如 endswith、replace、strip、translate、upper 等 ， 只 
少数 几 个 其 他 方法 的 参数 是 bytes 对 象 ， 而 不 是 str 对 象 。 此 外 ， 如 果 正 
则 表达 式 编 译 自 二 进 制 序列 而 不 是 字符 串 ，re 模块 中 的 正则 表达 式 函 数 也 
能 处 理 二 进 制 序列 。Python 3.0~3.4 不 能 使 用 % 运算 符 处 理 二 进 制 序列 ， 但 
是 根据 “PEP 461—Adding % formatting to bytes and bytearray”, Python 3.5 应 
该 会 文 持 。 


二 进 制 序列 有 个 类 方法 是 str 没有 的 ， 名 为 fromhex， 它 的 作用 是 解析 十 
六 进 制 数字 对 (数字 对 之 间 的 空格 是 可 选 的 ，， 构 建 二 进 制 序列 : 


>>> bytes.fromhex('31 4B CE AQ') 
b'1K\xce\xag' 


构建 bytes 或 bytearray 实例 还 可 以 调用 各 上 自 的 构造 方法 ， 传 入 下 述 参 


一 个 str 对 象 和 一 个 encoding 关键 字 参 数 。 
一 个 可 迭代 对 象 ， 提 供 0~255 之 间 的 数值 
一 个 整数 ， 使 用 空 字 节 创 建 对 应 长 度 的 二 进 制 序列 。[Python 3.5 会 把 这 


个 构造 方法 标记 为 “过 时 的 >”，Python 3.6 会 将 其 删除 。 参 见 “PEP 467 一 
Minor API improvements for binary sequences” ° ] 


e 
° 


一 个 实现 了 绥 冲 协议 的 对 象 (如 bytes > bytearray ` 
memoryview、array.array) ; 此 时 ， 把 源 对 象 中 的 字 节 序列 复制 
到 新 建 的 二 进 制 序列 中 。 


使 用 缓冲 类 对 象 构建 二 进 制 序列 是 一 种 低层 操作 ， 可 能 涉及 类 型 转换 。 示 例 
4-3 做 了 演示 。 


示例 4-3 ”使 用 数组 中 的 原始 数据 初始 化 bytes WAR 


>>> import array 
>>> numbers = array.array('h', [-2, -1, 0, 1, 2]) @ 
>>> octets = bytes(numbers) @ 


>>> octets 
b'\xfe\xff\xff\xff\x00\x00\x01\x00\x02\x00' © 


@ 指定 类 型 代码 h， 创 建 一 个 短 整数 (16 位 ) 数组 。 


@ octets 保存 组 成 numbers 的 字 节 序列 的 副本 。 


O 这 些 是 表示 那 5 个 短 整 数 的 10 TFT ° 


使 用 缓冲 类 对 象 创 建 bytes 或 bytearray 对 象 时 ， 始 终 复 制 源 对 象 中 的 
字 节 序列 。 与 之 相反 ，memoryview 对 象 允许 在 二 进 制 数 据 结构 之 间 共 享 内 
存 。 如 果 想 从 二 进 制 序列 中 提取 结构 化 信息 ，struct 模块 是 重要 的 工具 。 
下 一 节 会 使 用 这 个 模块 处 理 bytes Fl memoryview 对 象 。 


结构 体 和 内 存 视图 


struct 模块 提供 了 一 些 函 数 ， 把 打包 的 字 节 序列 转换 成 不 同类 型 字段 组 成 
的 元 组 ， 还 有 一 些 贸 数 用 于 执行 反 疝 转换 ， 把 元 组 转换 成 打包 的 字 市 序列 。 
struct 模块 能 处 理 bytes、bytearray 和 memoryview 对 象 。 


如 2.9.2 节 所 述 ，memoryview 类 不 是 用 于 创建 或 存储 字 节 序列 的 ， 而 是 共 
享 内 存 ， 让 你 访问 其 他 二 进 制 序列 、 打 包 的 数组 和 缓冲 中 的 数据 切片 ， 而 无 
ee Ene ey a) ee 


Pillow 是 PIL 最 活跃 的 派生 库 。 


示例 4-4 展示 了 如 何 使 用 memoryview 和 struct 提取 一 个 GIF 图 像 的 宽 
度 和 高 度 。 
示例 4-4 使 用 memoryview 和 struct 查看 一 个 GIF 图 像 的 首部 
>>> import struct 
>>> fmt = '<3s3sHH' # @ 


>>> with open('filter.gif', 'rb') as fp: 
img = memoryview(fp.read()) # © 


>>> header = img[:10] # © 


>>> bytes(header) # 四 
b'GIF89a+\x02\xe6\x00' 

>>> struct.unpack(fmt, header) # © 
(b'GIF', b'89a', 555, 230) 

>>> del header # © 

>>> del img 


@ 结构 体 的 格式 : < 是 小 字 节 序 ，3s3s 是 两 个 3 FTA, HH 是 两 个 16 
位 二 进 制 整数 。 


@ 使 用 内 存 中 的 文件 内 容 创 建 一 个 memoryview WR... 


目 ..….... 然 后 使 用 它 的 切片 再 创建 一 个 memoryview 对 象 ， 这 里 不 会 复制 字 
节 序 列 。 


O 转换 成 子 市 序列 ， 这 只 是 为 了 显示 ; 这 里 复制 了 10 FT ° 


© 拆 包 memoryview 对 象 ， 得 到 一 个 元 组 ， 包 含 类 型 、 版 本 、 宽 度 和 高 
度 。 


O 删除 引用 ， 释 放 memoryview 实例 所 占 的 内 存 。 


注意 ，memoryview 对 象 的 切片 是 一 个 新 memoryview 对 象 ， 而 且 不 会 复 
制 字 节 序 列 。 [本 书 的 技术 审 校 之 一 Leonardo Rochael 指出 ， 如 果 使 用 mmap 
模块 把 图 像 打 开 为 内 存 映射 文件 ， 那 么 会 复制 少量 字 节 。 本 书 不 会 讨论 
mmap， 如 果 你 经 常 读 取 和 修改 二 进 制 文件 ， 可 以 阅读 “mmap 一 Memory- 
mapped file support” 来 进一步 学 习 。] 


本 书 不 会 深入 介绍 memoryview 和 struct 模块 ， 如 果 要 处 理 二 进 制 数 
据 ， 可 以 阅读 它们 的 文档 : “Built-in Types » Memory Views” 和 “struct 一 
Interpret bytes as packed binary data” ° 


T Python 的 二 进 制 序列 类 型 之 后 ， 下 面 说 明 如 何在 它们 和 字符 串 之 间 


o 


4.3 EAREN 


Python 自 带 了 超过 100 种 编 解码 器 (codec, encoder/decoder) ， 用 于 在 文本 
和 字 世 之 间 相 互 转换 。 每 个 编 解码 事 都 有 一 个 名 称 ， 如 'utf_8' ， 而 且 经 
常 有 几 个 别名 ， 如 'utf8' ` 'utf-8' 和 'U8'。 这 些 名 称 可 以 传 给 
open()、str,encode()、bytes ,decode() HKJ encoding & 


数 。 示 例 4-5 使 用 3 个 编 解码 器 把 相同 的 文本 编码 成 不 同 的 字 市 序列 。 


>>> for codec in ['latin_1', 'utf_8', 'utf_16']: 


print(codec, 'El Nifio'.encode(codec), sep='\t') 


latin 1 b'El Ni\xfio' 
utf_8 b'El Ni \xc3\xbio' 
utf_16 b'\xff\xfeE\x001\x00 \xOON\xO0i\xOO\xf1\x000\x00' 


图 4-1 展示 了 不 同 编 解码 器 对 “A> 和 高 音 谱 号 等 字符 编码 后 得 到 的 字 节 序 
列 。 注 意 ， 后 3 种 是 可 变 长 度 的 多 字 节 编 码 。 


SA Ji 
fál 


code point ascii latin1 cp1252 cp437 utf-16le 
A U+0041 41 41 41 41 41 41 41 00 
é U+00BF £ BF BF A8 z C2 BF BF 00 
A _U+00C3 * c3 c3 * i C3 83 C3 00 
a U+00E1 * E1 E1 AO A8 A2 C3 A1 E1 00 
Q  U+03A9 x aj : EA A6 B8 CE A9 A9 03 
é U+06BF = ‘3 ie 和 is DA BF BF 06 
“ U+201C y s 93 i Ai BO E2 80 9C 1C 20 
€ U+20AC 5 - 80 ig £ E2 82 AC AC 20 
r U+250C * j x DA A9 BO E2 94 8C OC 25 
=  U+6C14 g * is Š C6 F8 E6 BO 94 14 6C 
S$  U+6C23 * gi * * * E6 BO A3 23 6C 
é U+1D11E * i i k by FO 9D 84 9E 34 D8 1E DD 


图 4-1: 12 个 字符 ， 它 们 的 码 位 及 不 同 编码 的 字 节 表述 (十 六 进 制 ， 星 号 
表明 该 编码 不 支持 表示 该 字符 ) 


图 4-1 中 的 星 号 表明 ， 某 些 编码 (W ASCH 和 多 字 节 的 GB2312) 不 能 表示 
所 有 Unicode 字符 。 然 而 ，UTEF 编码 的 设计 目的 就 是 处 理 每 一 个 Unicode 9 
位 。 

图 4-1 中 展示 的 是 一 些 典 型 编码 ， 介 绍 如 下 。 

latin1 ( 即 iso8859 1) 


一 种 重要 的 编码 ， 是 其 他 编码 的 基础 ， 例 如 cp1252 和 Unicode QE 
意 ，Latinl 与 cp1252 的 字 节 值 是 一 样 的 ， 甚 至 连 码 位 也 相同 ) 。 


cp1252 


Microsoft 制定 的 latin1 超 集 ， 添 加 了 有 用 的 符号 ， 例 如 弯 引 号 和 6 
(欧元 ) ; @# Windows 应 用 把 它 称 为 <ANST， 但 它 并 不 是 ANSI 标准 。 


cp437 


IBM PC 最 初 的 字符 集 ， 包 含 框 图 符号 。 与 后 来 出 现 的 latini 不 兼 


o 


ma 


gb2312 


ae 于 编码 简体 中 文 的 陈旧 标准 ;这 是 亚洲 语言 中 使 用 较 广 泛 的 多 字 市 编 
入学 二 8 


utf-8 


目前 Web 中 最 常见 的 8 位 编码 ; 3 与 ASCH 兼容 ( 纯 ASCII 文本 是 有 效 
的 UTF-8 文本 ) 。 


3W3Techs 发 布 的 “Usage of character encodings for websites” 报 告 指出 ， 截 至 2014 年 9 月 ，81.4% 的 网 
站 使 用 UTF-8; 而 Built With 发 布 的 “Encoding Usage Statistics” 估 计 的 比例 则 是 79.4% ° 


utf-16le 


UTF-16 的 16 位 编码 方案 的 一 种 形式 ;所 有 UTF-16 支持 通过 转 义 序列 
( 称 为 “代理 对 ”，surrogate pair) 表示 超过 U+FEFF 的 码 位 。 


Be UTF-16 取代 了 1996 年 发 布 的 Unicode 1.0 编码 (UCS-2) 。 这 个 
编码 在 很 多 系统 中 仍 在 使 用 ， 但 是 支持 的 最 大 码 位 是 U+FFFF。 从 
Unicode 6.3 起 ， 分 配 的 码 位 中 有 超过 50% 在 U+10000 以 上 上， 包括 逐渐 
流行 的 表情 符号 (emoji pictograph) ° 


概述 常规 的 编码 之 后 ， 下 面 要 处 理 编码 和 解码 过 程 中 存在 的 问题 。 


4.4 了 解 编 解码 问题 


虽然 有 个 一 般 性 的 UnicodeError 异常 ， 但 是 报告 错误 时 几乎 都 会 指明 具 
AAS: UnicodeEncodeError (把 字符 串 转 换 成 二 进 制 序列 时 ) 或 
UnicodeDecodeError (把 二 进 制 序列 转换 成 字符 串 时 ) 。 如 果 源 码 的 编 
码 与 预期 不 符 ， 加 载 Python 模块 时 还 可 能 抛 出 SyntaxError。 接 下 来 的 几 
节 说 明 如 何 处 理 这 些 错误 。 


~ 出 现 与 Unicode 有 关 的 错误 了 时， 首先 要 明确 异常 的 类 型 。 导 人 致 编 
码 问 题 的 是 UnicodeEncodeError、UnicodeDecodeError， 还 是 
如 SyntaxError 的 其 他 错误 ? 解决 问题 之 前 必须 清楚 这 一 点 。 


4.4.1 ”处理 unicodeEncodeError 


多 数 非 UTF 编 解码 器 只 能 处 理 Unicode 字符 的 一 小 部 分 子 集 。 把 文本 转换 成 
字 区 序列 时 ， 如 果 目 标 编 码 中 没有 定义 某 个 字符 ， 那 就 会 抛 出 
UnicodeEncodeError 有 异常， 除非 把 errors 参数 传 给 编码 方法 或 函数 ， 
对 错误 进行 特殊 处 理 。 处 理 错 误 的 方式 如 示例 4-6 所 示 。 


示例 4.6 ”编码 成 字 节 序列 ， 成 功 和 错误 处 理 


>>> city = 'São Paulo' 
>>> city.encode('utf_8') @ 
b'S\xc3\xa3o0 Paulo' 
>>> city.encode('utf_16') 
b'\xff\xfeS\x00\xe3\x000\x00 \xOOP\xO00a\xOOU\xXOO1L\xO00\x00' 
>>> city.encode('iso8859 1') @ 
b'S\xe30 Paulo' 
>>> city.encode('cp437') ® 
Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
File "/.../lib/python3.4/encodings/cp437.py", line 12, in encode 
return codecs.charmap_encode(input, errors, encoding_map ) 
UnicodeEncodeError: 'charmap' codec can't encode character '\xe3' in 
position 1: character maps to <undefined> 
>>> city.encode('cp437', errors='ignore') @ 
b'So Paulo' 
>>> city.encode('cp437', errors='replace') © 
b'S?0 Paulo' 


>>> city.encode('cp437', errors='xmlcharrefreplace') © 
b'São Paulo' 


O 'utt_?' 编码 能 处 理 任何 字符 串 。 
© 'iso8859_1' 编码 也 能 处 理 字 符 串 'Sao Paulo'。 


© 'cp437' 无 法 编码 a! ( 带 波形 符 的 “a”) 。 默 认 的 错误 处 理 方式 
'strict' WHH UnicodeEncodeError ° 


O error='ignore' 处 理 方式 悄 无 声息 地 跳 过 无 法 编码 的 字符 ， 这 样 做 通 
常 很 是 不 妥 。 


O 编码 时 指定 error='replace' ， 把 无 法 编码 的 字符 替换 成 '?'; 数据 
损坏 了 ， 但 是 用 户 知道 出 了 问题 。 


© 'xmlcharrefreplace' 把 无 法 编码 的 字符 替换 成 XML 实体 。 


` 编 解 码 絮 的 错误 处 理 方式 是 可 扩展 的 。 你 可 以 为 errors 参数 注 
册 额 外 的 字符 串 ， 方 法 是 把 一 个 名 称 和 一 个 错误 处 理 函 数 传 给 
codecs.register_error Hav ° 2) codecs.register_error 


函数 的 文档 。 


4.4.2 ”处 理 UunicodeDecodeError 


不 是 每 一 个 字 节 都 包含 有 效 的 ASCI 字符 ， 也 不 是 每 一 个 字符 序列 都 是 有 效 
的 UTF-8 或 UTF-16°。 因此 ， 把 二 ee 列 转换 成 文本 时 ， 如 果 假 设 是 这 两 
个 编码 中 的 一 个 ， 遇 到 无 法 转换 的 字 节 序列 时 会 抛 出 


UnicodeDecodeError ° 


一 方面 ， 很 多 陈旧 的 8 位 编码 一 一 如 'cp1252' > 'iso8859_1' 和 
£ BERENS EM F ee AN Fee, PUA LER 。 
m 如 果 程 序 使 用 错误 的 8 位 编码 ， 解 码 过 程 悄 无 声 县 ， 而 得 到 的 是 无 用 和 输 


A 乱码 字符 称 为 鬼 符 (gremlin) 或 mojibake (文字 化 叶 ,“ 变 形 文 
本 ”的 日 文 ) 。 


示例 4-7 演示 了 使 用 错误 的 编 解 码 器 可 能 出 现 见 符 或 抛 出 


UnicodeDecodeError ° 


示例 4-7 把 字 节 序列 解码 成 字符 串 ， 成 功 和 错误 处 理 


>>> octets = b'Montr\xe9al' @ 
>>> octets.decode('cpi252') © 


"Montréal' 

>>> octets.decode('iso8859_7') © 
"Montrval' 

>>> octets.decode('koi8_r') @ 
"MontrNal' 


>>> octets.decode('utf_8') © 
Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
UnicodeDecodeError: ‘'utf-8' codec can't decode byte Oxe9 in position 5: 
invalid continuation byte 
>>> octets.decode('utf_8', errors='replace') © 
"Montr{jal' 


y 
i 
b 


序列 是 使 用 latint 编码 的 “Montréal”，' \Xxe9' 字 节 对 应 “6”。 


@ 可 以 使 用 'cp1252' (Windows 1252) 解码 ， 因 为 它 是 latin1 的 有 效 
超 集 。 


© ISO-8859-7 用 于 编码 希腊 文 ， 因 此 无 法 正确 解释 '\xe9' 字 节 ， 而 且 没 有 
抛 出 错误 。 
@ KOI8-R 用 于 编码 俄 文 ， 这 里 ，' \xe9' 表示 西里 尔 字母 < 。 


O 'utf_8' 编 解 码 器 检测 到 octets 不 是 有 效 的 UTF-8 FE, POH 
UnicodeDecodeError ° 


@ 使 用 'replace' 错误 处 理 方式 ，\xe9 tat “oe” BALE 
U+FFFD) ， 这 是 官方 指定 的 REPLACEMENT CHARACTER (HFR), 
表示 未 知 字 符 。 


44.3 ”使 用 预期 之 外 的 编码 加 载 模块 时 抛 出 的 SyntaxError 
Python 3 默认 使 用 UTF-8 编码 源码 ，Python 2 (从 2.5 开始 ) 则 默认 使 用 


ASCI。 如 果 加 载 的 .py 模块 中 包含 UTF-8 之 外 的 数据 ， 而 且 没 有 声明 编 
码 ， 会 得 到 类 似 下 面 的 消息 : 


ài 


SyntaxError: Non-UTF-8 code starting with '\xe1' in file ola.py on line 
1, but no encoding declared; see http://python.org/dev/peps/pep-0263/ 


for details 


GNU/Linux 和 OS X 系统 大 都 使 用 UTF-8， 因 此 打开 在 Windows 系统 中 使 用 
cp1252 编码 的 .py 文件 时 可 能 发 生 这 种 情况 。 注 意 ， 这 个 错误 在 Windows 
版 Python 中 也 可 能 会 发 生 ， 因 为 Python 3 为 所 有 平台 设置 的 默认 编码 都 是 
UTE-8 ° 


为 了 修正 这 个 问题 ， 可 以 在 文件 顶部 添加 一 个 神奇 的 coding 注释， 如 示例 
4-8 所 示 。 


示例 4-8 ola.py: “你 好 ， 世 界 ! ”的 葡萄 牙 语 版 


# coding: cp1252 


print('01a, Mundo!') 


~I 现在 ，Python 3 的 源码 不 再 限于 使 用 ASCII， 而 是 默认 使 用 优秀 的 
UTF-8 编码 ， 因 此 要 修正 源码 的 陈旧 编码 (如 'cp1252') 问题 ， 最 好 
将 其 转换 成 UTF-8， 别 去 麻烦 coding 注释 。 如 果 你 用 的 编辑 器 不 支持 
UTF-8， 那 么 是 时 候 换 一 个 了 。 


源码 中 能 不 能 使 用 非 ASCII 名 称 
Python 3 允许 在 源码 中 使 用 非 ASCII 标识 符 : 


>>> ação = 'PBR' # ação = stock 
>>> € = 10**-6 # € = epsilon 


有 些 人 不 喜欢 这 么 做 。 支 持 始终 使 用 ASCII 标识 符 的 人 认为 ， 这 样 便于 
所 有 人 阅读 和 编辑 代码 。 这 些 人 没 切 中 要 害 : 源码 应 该 便于 目标 群体 阅 
读 和 编辑 ， 而 不 是 “所 有 人 ”。 如 果 代 码 属于 跨国 公司 ， 或 者 是 开源 的 ， 
想 让 来 自 世 界 各 地 的 人 作 贡 献 ， 那 么 标识 符 应 该 使 用 英语 ， 也 就 是 说 只 
能 使 用 ASCII 字符 。 


但 是 ， 如 果 你 是 巴西 的 一 位 老师 ， 那 么 使 用 葡萄 牙 语 正确 拼写 变量 和 画 
数 名 更 便于 学 生 阅读 代码 。 而 且 ， 这 些 学 生 在 本 地 化 的 键 表 中 不 难 打出 
变 音 符号 和 重音 元 音字 母 


ILE, Python 能 解析 Unicode 名 称 ， 而 且 源 码 的 默认 编码 是 UTF-8， 我 
觉得 没有 任何 理由 使 用 不 带 重 音符 号 的 葡萄 牙 语 编 写 标识 符 。 在 Python 
2 中 确实 不 能 这 么 做 ， 除 非 你 也 想 使 用 Python 2 运行 代码 ， 否 则 不 必 如 
此 。 如 果 使 用 葡萄 牙 语 命 名 标识 符 却 不 市 重音 符号 的 话 ， 这 样 写 出 的 代 
码 对 任何 人 来 说 都 不 易 阅 读 。 

这 征 我 作为 说 葡萄 下 语 的 巴西 人 的 观 氮 ， 不 过 我 相信 也 适用 于 其 他 国家 
和 文化 : 选择 对 团队 而 言 易于 阅读 的 人 类 语言 ， 然 后 使 用 正确 的 字符 拼 
写 。 


假如 有 个 文本 文件 ， 里 面 保存 的 是 源码 或 诗句 ， 但 是 你 不 知道 它 的 编码 。 如 
何 查 明 真正 的 编码 呢 ? 下 一 市 使 用 一 个 推荐 的 库 回答 这 个 问题 。 


4.4.4 ”如 何 找 出 字 节 序列 的 编码 
如 何 找 出 字 节 序列 的 编码 ? 简单 来 说， 不 能 。 必 须 有 人 告诉 你 。 


有 些 通信 协议 和 文件 格式 ， 如 HTTP 和 XML， 包含 明确 指明 内 容 编码 的 首 
部 。 可 以 肯定 的 是 ， 某 些 字 节 流 不 是 ASCII， 因 为 其 中 包含 大 于 127 的 字 节 
值 ， 而 且 制 定 UTF-8 和 UTF-16 的 方式 也 限制 了 可 用 的 字 节 序列 。 不 过 即便 
如 此 ， 我 们 也 不 能 根据 特定 的 位 模式 来 100% 确定 二 进 制 文件 的 编码 是 
ASCII 或 UTF-8。 


然而 ， 就 像 人 类 语言 也 有 规则 和 限制 一 样 ， 只 要 假定 字 节 流 是 人 类 可 读 的 纯 
文本 ， 就 可 能 通过 试探 和 分 析 找 出 编码 。 例 如 ， 如 果 b'\xoo' 字 节 经 常 出 
现 ， 那 么 可 能 是 16 位 或 32 位 编码 ， 而 不 是 8 位 编码 方案 ， 因 为 纯 文 本 中 不 
能 包含 空 字 符 ， 如 果 字 节 序 列 b'\x20\x00' 经 常 出 现 ， 那 么 可 能 是 UTF- 
16LE 编码 中 的 空格 字符 (U+0020) ， 而 不 是 鲜 为 人 知 的 U+2000 EN QUAD 
字符 一 一 谁 知 道 这 是 什么 呢 ! 


统一 字符 编码 侦 测 包 Chardet 就 是 这 样 工 作 的 ， 它 能 识别 所 支持 的 30 种 编 
码 。Chardet 是 一 个 Python 库 ， 可 以 在 程序 中 使 用 ， 不 过 它 也 提供 了 命令 行 
工具 chardetect。 下 面 是 它 对 本 章 书稿 文件 的 检测 报告 : 


$ chardetect 04-text-byte.asciidoc 


04-text-byte.asciidoc: utf-8 with confidence 0.99 


二 进 制 序列 编码 文本 通常 不 会 明确 指明 自己 的 编码 ， 但 是 UTF 格式 可 以 在 
文本 内 容 的 开头 添加 一 个 字 节 序 标记 。 参 见 下 一 节 。 


4.4.5 BOM: 有 用 的 鬼 符 


在 示例 4-5 中 ， 你 可 能 注意 到 了 ，UTF-16 编码 的 序列 开头 有 几 个 额外 的 字 
T, OR Atm: 


>>> u16 = 'El Nifio'.encode('utf_16') 
>>> U16 


b'\xff\xFfeE\x001\x00 \xOON\xO0i\xXOO\xF1\x000\x00' 


我 指 的 是 b'\xff\xfe'。 这 是 BOM， 即 字 节 序 标记 (byte-order mark) ， 
指明 编码 时 使 用 Intel CPU 的 小 字 节 序 。 


在 小 字 节 序 设备 中 ， 各 个 码 位 的 最 低 有 效 字 节 在 前 面 ， 字母 'E' 的 码 位 是 
U+0045 (十 进 制 数 69) ， 在 字 节 偏 移 的 第 2 位 和 第 3 位 编码 为 69 和 0。 


>>> list(u16) 
[255, 254, 69, ©, 108, ©, 32, ©, 78, ©, 105, ©, 241, ©, 111, 0] 


TERE TF CPU 中 ， 编 码 顺序 是 相反 的 ; 'E' 编码 为 0 和 69。 


为 了 避免 混淆 ，UTF-16 编码 在 要 编码 的 文本 前 面 加 上 特殊 的 不 可 见 字符 
ZERO WIDTH NO-BREAK SPACE (U+FEFF) 。 在 小 字 节 序 系 统 中 ， 这 个 
字符 编码 为 b'\xff\xfe' (十 进 制 数 255, 254) 。 因 为 按照 设计 ，U+FFFE 
字符 不 存在 ， 在 小 字 节 序 编码 中 ， 字 节 序 列 b'\xff\xfe' 必定 是 ZERO 
WIDTH NO-BREAK SPACE， 所 以 编 解 码 器 知道 该 用 哪个 字 节 序 。 


UTF-16 有 两 个 变种 : UTF-16LE， 显 式 指 明 使 用 小 字 节 序 ; UTF-16BE, © 
式 指明 使 用 大 字 节 序 。 如 果 使 用 这 两 个 变种 ， 不 会 生成 BOM: 


>>> ui6le = 'El Nifio'.encode('utf_16le') 
>>> list(u16le) 
[69, ©, 108, ©, 32, ©, 78, ©, 105, ©, 241, 0, 111, 0] 


>>> ui6be = 'El Nifio'.encode('utf_16be' ) 
>>> list(ul6be) 
[0, 69, ©, 108, 0, 32, ©, 78, ©, 105, ©, 241, ©, 111] 


如 果 有 BOM, UTF-16 编 解码 器 会 将 其 过 滤 掉 ， 为 你 提供 没有 前 导 ZERO 
WIDTH NO-BREAK SPACE 字符 的 真正 文本 。 根 据 标准 ， 如 果 文 件 使 用 
UTF-16 编码 ， 而 且 没 有 BOM， 那 么 应 该 假定 它 使 用 的 是 UTF-16BE (KF 
节 序 ) 编码 。 然 而 ，Intel x86 架构 用 的 是 小 字 节 序 ， 因 此 有 很 多 文件 用 的 是 
不 带 BOM HYN DJE UTF-16 编码 。 


与 字 节 序 有 关 的 问题 只 对 一 个 字 (wod) 占 多 个 字 节 的 编码 (如 UTF-16 和 
UTF-32) 有 影响 。UTF-8 的 一 大 优势 是 ， 不 管 设备 使 用 哪 种 字 节 序 ， 生 成 的 
字 节 序列 始终 一 致 ， 因 此 不 需要 BOM 。 尽 管 如 此 ， 某 些 Windows 应 用 È 
其 是 Notepad) 依然 会 在 UTF-8 编码 的 文件 中 添加 BOM; iH, Excel 会 根 
据 有 没有 BOM 确定 文件 是 不 是 UTE-8 编码 ， 否 则 ， 它 假设 内 容 使 用 
Windows 代码 页 (codepage) 编码 。UTF-8 编码 的 U+FEFF 字符 是 一 个 三 字 
节 序 列 : b' \xef\xbb\xbf'。 因 此 ， 如 果 文 件 以 这 三 个 字 节 开头 ， 有 可 能 
是 带 有 BOM 的 UTF-8 文件 。 然 而 ，Python 不 会 因为 文件 以 
b'\xef\xbb\xbf' 开头 就 自动 假定 它 是 UTF-8 编码 的 。 


下 面 换 个 话题 ， 讨 论 Python 3 处 理 文 本 文件 的 方式 。 


4.5 ”处理 文本 文件 


处 理 文本 的 最 佳 实践 是 “Unicode 三 明治 ”( 如 图 4-2 所 示 ) 。4 意思 是 ， 要 尽 
早 把 输入 〈 例 如 读 取 文件 时 ) 的 字 世 序列 解码 成 字符 串 。 这 种 三 明治 中 
的 “肉片 ”是 程序 的 业务 逻辑 ， 在 这 里 只 能 处 理 字 符 串 对 象 。 在 其 他 处 理 过 程 


中 ， 一 定 不 能 编码 或 解码 。 对 输出 来 说 ， 则 要 尽量 晚 地 把 字符 串 编 码 成 字 节 
序列 。 多 数 Web 框架 都 是 这 样 做 的 ， 使 用 框架 时 很 少 接触 字 节 序列 。 例 如 ， 
在 Django 中 ， 视 图 应 该 输出 Unicode 字符 串 ; Django 会 负责 把 响应 编码 成 
字 节 序列 ， 而 且 默 认 使 用 UTF-8 编码 。 


4 我 第 一 次 见 到 “Unicode 三 明治 ”这 种 说 法 是 在 Ned Batchelder 在 US PyCon 2012 上 所 做 的 精彩 演讲 
1: “Pragmatic Unicode” ° 


Unicode = H76 


-> str 解码 输入 的 字 节 序列 ， 


IOO% Str menxs, 


str > 编码 输出 的 文本 。 


图 4-2: Unicode 三 明治 目前 处 理 文本 的 最 佳 实践 


在 Python 3 中 能 轻松 地 采纳 Unicode 三 明治 的 建议 ， 因 为 内 置 的 open 函数 
会 在 读 取 文件 时 做 必要 的 解码 ， 以 文本 模式 写 入 文件 时 还 会 做 必要 的 编码 ， 
所 以 调用 my_file.read( ) 方法 得 到 的 以 及 传 给 
my_file.write(text) 方法 的 都 是 字符 串 对 象 。5 


5Python 2.6 或 Python 2.7 用 户 要 使 用 io. open() 函数 才能 得 到 读 写 文件 时 自动 执行 的 解码 和 编码 操 
作 。 


a 处 理 文本 文件 很 简单 。 但 是 ， 如 有 果 依 赖 稚 认 编码 ， 你 会 遇 到 厅 
烦 。 


看 一 下 示例 4-9 中 的 控制 台 会 话 。 你 能 发 现 问题 吗 ? 


示例 4-9 一 个 平台 上 的 编码 问题 (如 果 在 你 的 机 器 上 运行 ， 它 可 能 会 
发 生 ， 也 可 能 不 会 ) 


>>> open('cafe.txt', 'w', encoding='utf_8').write('café') 
4 


>>> open('cafe.txt').read() 
"cafAG 


问题 是 ， 写 入 文件 时 指定 了 UTF-8 编码 ， 但 是 读 取 文 件 时 没有 这 么 做 ， 因 此 
Python 假定 要 使 用 系统 默认 的 编码 (Windows 1252) ， 于 是 文件 的 最 后 一 个 
字 节 解码 成 了 字符 'A©' ， 而 不 是 "6E'。 


我 是 在 Windows 7 中 运行 示例 4-9 的 。 在 新 版 GNU/Linux 或 Mac OS X 中 运 
行 同 样 的 语句 不 会 出 问题 ， 因 为 这 几 个 操作 系统 的 默认 编码 是 UTF-8， 让 人 
误 以 为 一 切 正常 。 如 果 打 开 文 件 是 为 了 写 入 ， 但 是 没有 指定 编码 参数 ， 会 使 
用 区 域 设 置 中 的 默认 编码 ， 而 且 使 用 那个 编码 也 能 正确 读 取 文件 。 但 是 ， 如 
果 脚 本 要 生成 文件 ， 而 字 节 的 内 容 取决 于 平台 或 同一 平台 中 的 区 域 设 置 ， 那 
么 就 可 能 导致 兼容 问题 。 


~I 需要 在 多 台 设 备 中 或 多 种 场合 下 运行 的 代码 ， 一 定 不 能 依赖 默认 

编码 。 打 开 文 件 时 始终 应 该 明确 传 入 encoding= 参数 ， 因 为 不 同 的 设 
备 使 用 的 默认 编码 可 能 不 同 ， 有 时 隔 一 天 也 会 发 生变 化 。 

示例 4-9 中 有 个 奇怪 的 细节 : 第 一 个 语句 中 的 write 函数 报告 写 入 了 4 个 字 

符 ， 但 是 下 一 行 读 取 时 却 得 到 了 5 个 字符 。 示 例 4-10 是 对 示例 4-9 的 扩展 ， 

对 这 个 问题 以 及 其 他 细节 做 了 说 明 。 


示例 4-10 仔细 分 析 在 Windows 中 运行 的 示例 4-9， 找 出 并 修正 问题 


>>> fp = open('cafe.txt', 'w', encoding='utf_8') 

>>> fp @ 

<_io.TextIOWrapper name='cafe.txt' mode='w' encoding='utf_8'> 
>>> fp.write('café') 

4 @ 

>>> fp.close() 

>>> import os 

>>> os.stat('cafe.txt').st_size 


5 © 
>>> fp2 = open('cafe.txt') 
>>> fp2 @ 


<_io.TextIOWrapper name='cafe.txt' mode='r' encoding='cp1252'> 
>>> fp2.encoding © 

"Cp1252 

>>> fp2.read() 

'‘cafAO' © 

>>> fp3 = open('cafe.txt', encoding='utf_8') @ 

>>> fp3 

<_io.TextIOWrapper name='cafe.txt' mode='r' encoding='utf_8'> 
>>> fp3.read() 

'‘café' © 

>>> fp4 = open('cafe.txt', 'rb') © 

>>> fp4 


<_io.BufferedReader name='cafe.txt'> @ 
>>> fp4.read() ® 
b'caf\xc3\xag' 


@ 默认 情况 下 ，open 函数 采用 文本 模式 ， 返 回 一 个 Text 1OWrapper 对 
象 。 


@ 在 TextIOWwrapper 对 象 上 调用 write 方法 返回 写 入 的 Unicode 字符 


© os.stat 报告 文件 中 有 5 SE; UTF-8 编码 的 '6' 占 两 个 字 节 ，0xc3 
和 0xa9。 

O 打开 文本 文件 时 没有 显 式 指定 编码 ， 返 回 一 个 TextIOWrapper 对 象 ， 
编码 是 区 域 设 置 中 的 默认 值 。 


© TextIOWrapper 对 象 有 个 encoding 属性 ; 查看 它 ， 发 现 这 里 的 编码 
是 cp1252 ° 


© E Windows cp1252 编码 中 ，0xc3 字 节 是 “A”( 带 波形 符 的 A) ，0xa9 F 
节 是 版 权 符号 。 


@ 使 用 正确 的 编码 打开 那个 文件 。 

O 结果 符合 预期 : 得 到 的 是 四 个 Unicode 字符 'café'。 

O 'rb ' 标志 指明 在 二 进 制 模式 中 读 取 文 件 。 

© 返回 的 是 BufferedReader WR, i Text lOWrapper 对 象 。 
OLAS Ts, BRA 


A 除非 想 判断 编码 ， 否 则 不 要 在 二 进 制 模式 中 打开 文本 文件 ; 即便 
如 些 ， 也 应 该 使 用 Chardet， 而 不 是 重新 发 明 轮 子 (参见 4.4.4 节 ) 。 常 
规 代码 只 应 该 使 用 二 进 制 模 式 打 开 二 进 制 文件 ， 如 光 棚 图 像 。 


示例 410 的 问题 是 ， 打 开 文本 文件 时 依 业 几 认 设置 。 黑 认 设置 有 许多 来 源 ， 
参见 下 一 节 。 


编码 默认 值 : 一 团 精 


有 几 个 设置 对 Python IO 的 编码 默认 值 有 影响 ， 如 示例 4-11 中 的 
default_encodings.py 脚本 所 示 。 


示例 4-11 探索 编码 默认 值 


import sys, locale 


expressions = """ 
locale.getpreferredencoding( ) 
type(my_file) 
my_file.encoding 
sys.stdout.isatty() 
sys.stdout.encoding 
sys.stdin.isatty() 
sys.stdin.encoding 
sys.stderr.isatty() 
sys.stderr.encoding 
sys.getdefaultencoding() 
sys.getfilesystemencoding( ) 


my_file = open('dummy', 'w') 


for expression in expressions.split(): 
value = eval(expression) 
print(expression.rjust(30), '->', repr(value) ) 


示例 4-11 在 GNU/Linux (Ubuntu 14.04) 和 OS X (Mavericks 10.9) 中 的 输 
出 一 样 ， 表 明 这 些 系统 中 始终 使 用 UTF- 8: 


$ python3 default_encodings.py 
locale.getpreferredencoding() -> 'UTF-8' 
type(my_file) -> <class '_io.TextIOWrapper '> 
my_file.encoding -> 'UTF-8' 
sys.stdout.isatty() -> True 
sys.stdout.encoding -> 'UTF-8' 
sys.stdin.isatty() -> True 
sys.stdin.encoding -> 'UTF-8' 
sys.stderr.isatty() -> True 
sys.stderr.encoding -> 'UTF-8' 
sys.getdefaultencoding() -> 'utf-8' 
sys.getfilesystemencoding() -> 'utf-8' 


然而 ， 在 Windows 中 的 输出 有 所 不 同 ， 如 示例 4-12 所 示 。 


示例 4-12 在 Windows 7 (SP1) 巴西 版 中 的 cmd.exe 中 输出 的 默认 编 
f4; PowerShell 输出 的 结果 相同 


Z:\>chcp @ 
Pagina de código ativa: 850 
Z:\>python default_encodings.py @ 
locale.getpreferredencoding() -> 'cp1252' ® 
type(my_file) -> <class '_io.TextIOWrapper '> 
my_file.encoding -> 'cp1252' @ 
sys.stdout.isatty() -> True © 


sys.stdout.encoding -> 'cp850' © 
sys.stdin.isatty() -> True 
sys.stdin.encoding -> 'cp850' 
sys.stderr.isatty() -> True 
sys.stderr.encoding -> 'cp850' 
sys.getdefaultencoding() -> 'utf-8' 
sys.getfilesystemencoding() -> 'mbcs' 


@ chcp 和 输出 当前 控制 台 激活 的 代码 页 : 850 ° 


四 运行 default_encodings.py， 把 结果 输出 到 控制 台 。 


© locale.getpreferredencoding() 是 最 重要 的 设置 。 
@@ 文 本 文件 默认 使 用 locale.getpreferredencoding()。 


@ 输出 到 控制 台中 ， 因 此 sys.stdout.isatty() 返回 True。 
@ KIE, sys.stdout.encoding 与 控制 台 的 编码 相同 。 
如 果 把 输出 重 定向 到 文件 ， 如 下 所 示 : 


Z:\>python default_encodings.py > encodings.log 


sys.stdout.isatty() 的 返回 值 会 变 成 False， 
sys.stdout.encoding 会 设 为 1ocale.getpreferredencoding( )， 
在 那 台 设备 中 是 'cp1252' ° 


注意 ， 示 例 4-12 中 有 4 种 不 同 的 编码 。 
。 如 果 打 开 文 件 时 没有 指定 encoding 参数 ， 默 认 值 由 


locale.getpreferredencoding() 提供 (在 示例 4-12 中 是 
'cp1252') œ 


。 如 果 设 定 了 PYTHONIOENCODING 环境 变量 ， 


sys.stdout/stdin/stderr 的 编码 使 用 设 定 的 值 ; 否则 ， 继 承 目 所 


在 的 控制 台 ; 如 果 输 入 /输出 重 定向 到 文件 ， 则 由 
locale.getpreferredencoding() 定义 。 


Python 在 二 进 制 数据 和 字符 昌之 间 转 换 时 ， 内 部 使 用 


sys .getdefaultencoding( ) 获得 的 编码 ; Python 3 很 少 如 此 ， 但 


PARE ° 6 这 个 设置 不 能 修改 。” 


e sys.getfilesystemencoding() 用 于 编 解码 文件 名 (不 是 文件 内 


传 入 的 文件 名 参数 是 字 市 序列 ， 那 就 不 经 改动 直接 传 给 OS 


容 ) 。 把 字符 串 参 数 作为 文件 名 传 给 open( ) 函数 时 就 会 使 用 它 ， 如 果 


API ° “Unicode HOWTO” 一 文中 说 : “在 Windows 中 ，Python 使 用 mbcs 


这 个 名 称 引 用 当前 配置 的 编码 。”MBCS 是 Multi Byte Character Set ( 
SNe) 的 首 字母 缩写 ， 在 Windows 中 是 陈旧 的 变 长 编码 ， 如 
gb2312 或 Shift_JIS， 而 不 是 UTF-8。 [关于 这 个 话题 ，Stack 


多 


Overflow 中 有 一 个 很 好 的 回答 , “Difference between MBCS and UTF-8 on 


Windows” ° ] 


6 研究 这 个 话题 时 ， 我 在 Python 内 部 找 不 到 把 字 节 序列 转换 成 字符 串 的 情况 。Python 核心 开发 者 


Antoine Pitrou 在 comp.python. devel 邮件 列表 中 说 ，CPython 的 内 部 函数 “在 py3k 中 很 少 这 
做 ” 6 


么 


“Python 2 对 sys. setdefaultencoding 函数 的 使 用 方式 不 当 ，Python 3 的 文档 中 已 经 没有 这 个 函 


数 。 这 个 画 数 是 供 核心 开发 者 使 用 的 ， 用 于 在 内 部 的 默认 编码 未 定时 设置 编码 。 在 


comp. python. devel 邮件 列表 的 那个 话题 中 ，Marc-André Lemburg 说 ， 用 户 代码 一 定 不 能 调用 


sys.setdefaultencoding HA, MAX CPython 来 说 ， 它 的 值 在 Python 2 中 只 能 是 
'ascii'， 在 Python 3 中 只 能 是 "utf-8'。 


iN 在 GNU/Linux 和 OS XX 中， 这 些 编码 的 默认 值 都 是 UTF-8， 而 且 
多 年 来 都 是 如 此 ， 因 此 IO 能 处 理 所 有 Unicode 字符 。 在 Windows 中 ， 


不 仅 同 一 个 系统 中 使 用 不 同 的 编码 ， 还 有 只 支持 ASCH 和 127 个 额外 的 
字符 的 代码 页 (如 'cp850' 或 'cp1252') ， 而 且 不 同 的 代码 页 之 间 
增加 的 字符 也 有 所 不 同 。 因 此 ， 若 不 多 加 小 心 ，Windows HP ERDE 


到 编码 问题 。 


综 上 ，1locale.getpreferredencoding() 返回 的 编码 是 最 重要 的 : 
是 打开 文件 的 默认 编码 ， 也 是 重 定向 到 文件 的 


到 


sys.stdout/stdin/stderr 的 默认 编码 。 然 而 ， 文 档 也 说 道 (摘录 部 


JE 


locale.getpreferredencoding(do_setlocale=True) 


根据 用 户 的 偏好 设置 ， 返 回 文本 数据 的 编码 。 用 户 的 偏好 设置 在 不 同系 
统 中 的 设 定 方式 不 同 ， 而 且 在 某 些 系统 中 可 能 无 法 通过 编程 方式 设置 ， 
因此 这 个 函数 返回 的 只 是 猜测 的 编码 .…… 


因此 ， 关 于 编码 默认 值 的 最 佳 建议 是 : 别 依赖 默认 值 。 


WRM Unicode 三 明治 的 建议 ， 而 且 始 终 在 程序 中 显 式 指 定编 码 ， 那 将 避 
免 很 多 问题 。 可 惜 ， 即 使 把 字 节 序列 正确 地 转换 成 字符 串 ，Unicode 仍 有 不 
尽 如 人 和 意 的 地 方 。 接 下 来 的 两 节 讨 论 的 话题 对 ASCI 世界 来 说 很 简单 ， 但 是 
在 Unicode 领域 就 变 得 相当 复杂 : 文本 规范 化 〈 即 为 了 比较 而 把 文本 转换 成 
统一 的 表述 ) 和 排序 。 


4.6 ”为 了 正确 比较 而 规范 化 Unicode 字 符 串 


因为 Unicode 有 组 合 字符 〈 变 音符 号 和 附加 到 前 一 个 字符 上 的 记号 ， 打 印 时 
作为 一 个 整体 ) ， 所 以 字符 串 比 较 起 来 很 复杂 © 


例如 , “caf6" 这 个 词 可 以 使 用 两 种 方式 构成 ， 分 别 有 4 个 和 5 个 码 位 ， 但 是 


结 末 完全 一 样 : 


>>> si = 'café' 

>>> s2 = 'cafe\u0301' 
>>> s1, s2 

('café', 'café' 

>>> len(s1), len(s2) 
(4, 5) 

>>> s1 == s2 


False 


U+0301 Æ COMBINING ACUTE ACCENT， 加 在 “e” 后 面 得 到 “6”。 在 Unicode 
标准 中 ，'é' 和 'e\U0301' 这 样 的 序列 叫 “ 标 准 等 价 物 ” (canonical 
equivalent) ， 应 用 程序 应 该 把 它们 视 作 相同 的 字符 。 但 是 ，Python 看 到 的 是 
不 同 的 码 位 序列 ， 因 此 判定 二 者 不 相等 。 


这 个 问题 的 解决 方案 是 使 用 unicodedata,.normalize 函数 提供 的 
Unicode 规范 化 。 这 个 函数 的 第 一 个 参数 是 这 4 个 字符 串 中 的 一 
个 : 'NFC' ` 'NFD' ` 'NFKC' 和 'NFKD'。 下 面 先 说 明 前 两 个 。 


NFC (Normalization Form C) 使 用 最 少 的 码 位 构成 等 价 的 字符 串 ， 而 NFD 
把 组 合 字符 分 解 成 基 字 符 和 单独 的 组 合 字符 。 这 两 种 规范 化 方式 都 能 让 比较 
行为 符合 预期 : 


>>> from unicodedata import normalize 

>>> s1 = 'café' # 把 "e" 和 重音 符 组 合 在 一 起 

>>> s2 = 'cafe\u0301' # 分 解 成 "re" 和 重音 符 

>>> len(s1), len(s2) 

(4, 5) 

>>> len(normalize('NFC', s1)), len(normalize('NFC', s2)) 


(4, 4) 

>>> len(normalize('NFD', s1)), len(normalize('NFD', s2)) 
(5, 5) 

>>> normalize('NFC', s1) == normalize('NFC', s2) 

True 

>>> normalize('NFD', s1) == normalize('NFD', s2) 

True 


西方 键盘 通常 能 输出 组 合 字符 ， 因 此 用 户 输入 的 文本 默认 是 NFC 形式 。 不 
过 ， 安 全 起 见 ， 保 存 文本 之 前 ， 最 好 使 用 normalize('NFC '， 
user_text) 清洗 字符 串 。NFC 也 是 W3C 的 “Character Model for the World 
Wide Web: String Matching and Searching” 规 范 推荐 的 规范 化 形式 。 


使 用 NFC 时 ， 有 些 单字 符 会 被 规范 成 另 一 个 单字 符 。 例 如 ， 电 阻 的 单位 欧 
姆 (Q) 会 被 规范 成 希腊 字母 大 写 的 欧米 加 。 这 两 个 字符 在 视觉 上 是 一 样 
的 ,但 是 比较 时 并 不 相等 ， 因 此 要 规范 化 ， 防 止 出 现 意外 : 


>>> from unicodedata import normalize, name 
>>> ohm = '\u2126' 

>>> name(ohm) 

"OHM SIGN' 

>>> ohm_c = normalize('NFC', ohm) 


>>> name(ohm_c) 

"GREEK CAPITAL LETTER OMEGA' 

>>> ohm == ohm_c 

False 

>>> normalize('NFC', ohm) == normalize('NFC', ohm_c) 
True 


在 另外 两 个 规范 化 形式 (NFKC 和 NFKD) 的 首 字 母 缩 略 词 中 ， 字 母 K 表 
7R“compatibility” (FATE) 。 这 两 种 是 较 严 格 的 规范 化 形式 ， 对 “兼容 字 
PARAR © BIA Unicode 的 目标 是 为 各 个 字符 提供 “规范 的 * 码 位 ， 但 是 为 了 
兼容 现 有 的 标准 ， 有 些 字符 会 出 现 多 次 。 例 如 ， 虽 然 硕 腊 字 母 表 中 有 “这 
字母 ( 码 位 是 U+03BC，GREEK SMALL LETTER MU) ， 但 是 Unicode 
加 入 了 微 符 号 'u' (U+00B5) ， 以 便 与 latini 相互 转换 。 因 此 ， 微 


H 

JE 

o Ea. PZ Po Ate 
EO MIR FF” ° 


A> 


在 NFKC 和 NFKD 形式 中 ， o o o o BE ANGER 5p 
fe OF 即便 这 样 有 些 格式 损失 ， 但 仍 是 “首选 "表述 想 情 况 下 ， 格 式 
化 是 外 部 标记 的 职责 ， 不 应 该 由 Unicode 处 理 。 eye ea 0 二 分 之 一 
'%' (U+00BD) 经 过 兼容 分 解 后 得 到 的 是 三 个 字符 Fea ， 1/2'; Wes 
'u' (U+00B5) 经 过 兼容 4 HEME SSE u' (U+03BC) °8 


‘A 


8 微 符号 是 “兼容 字符 "， 而 欧姆 符号 不 是 ， 这 还 真是 奇怪 。 因 此 ，NFC 不 会 改动 微 符号 ， 但 是 会 把 欧 
姆 符号 A SKI, 而 NFKC 和 NFKD 会 把 欧姆 和 微 符号 都 改 成 其 他 字符 。 


下 面 是 NFKC 的 具体 应 用 : 


>>> from unicodedata import normalize, name 
>>> half = '%' 

>>> normalize('NFKC', half) 

'1/2' 

>>> four_squared = '42' 

>>> normalize('NFKC', four_squared) 

'42' 

>>> micro = "hh! 

>>> micro_kc = normalize('NFKC', micro) 

>>> micro, micro_kc 


('u', 'H') 
>>> ord(micro), ord(micro_kc) 
(181, 956) 


>>> name(micro), name(micro_kc) 
('MICRO SIGN', 'GREEK SMALL LETTER MU') 


使 用 '1/2' BR we! 可 以 接受 ， 微 符号 也 确实 是 小 写 的 希腊 字母 'H' ， 但 
是 把 '42 ' 转换 成 '42 ' 就 改变 原意 了 。 某 些 应 用 程序 可 以 把 '42' 保存 为 
'A<sup>2</sup>', {BÆ normalize 函数 对 格式 一 无 所 知 。 因 此 ， 
NFKC 或 NFKD 可 能 会 损失 或 曲解 信息 ， 但 是 可 以 为 搜索 和 索引 提供 便利 的 
中 间 表 述 : 用 户 搜索 '1 / 2 inch' 时 ， 如 果 还 能 找到 包含 '% inch' 的 
文档 ， 那 么 用 户 会 感到 满意 。 


Beh 使 用 NFKC 和 NFKD o 而 且 只 能 在 特殊 情 


况 中 使 用 ， 例 如 搜索 和 索引 ， 而 不 能 用 于 持久 存储 ， 因 为 这 两 种 转换 会 
导致 数据 损失 。 
为 搜索 或 索引 准备 文本 时 ， 还 有 一 个 有 用 的 操作 ， 即 下 一 市 讨论 的 大 小 写 折 


4.6.1 ANSE 


大 小 写 折 又 其 实 就 是 把 所 有 文本 变 成 小 写 ， 再 做 些 其 他 转换 。 这 个 功能 由 
str.casefold() 方法 (Python 3.3 新 增 ) 支持 。 


对 于 只 包含 latina 字符 的 字符 串 sS，s.casefold() 得 到 的 结果 与 
s.lower() 一 样 ， 唯 有 两 个 例外 : 微 符号 'H ' 会 变 成 小 写 的 希腊 字 

母 “h”( 在 多 数字 体 中 二 者 看 起 来 一 样 ) ; 德语 Eszett (“sharps”, 8) 会 变 
成 “ss” ò 


>>> micro = "Hh! 

>>> name(micro) 

'MICRO SIGN' 

>>> micro_cf = micro.casefold() 
>>> name(micro_cf) 

'GREEK SMALL LETTER MU' 

>>> micro, micro_cf 


(hh 'H') 

>>> eszett = 'fR' 

>>> name(eszett) 

'LATIN SMALL LETTER SHARP S' 

>>> eszett_cf = eszett.casefold() 
>>> eszett, eszett_cf 

('B', 'ss') 


自 Python 3.4 Œ, str.casefold() Ñ str.lower() 得 到 不 同 结果 的 有 
116 个 码 位 。Unicode 6.3 命名 了 110 122 个 字符 ， 这 只 占 0.11%。 


与 Unicode 相关 的 任何 问题 一 样 ， 大 小 写 折 县 是 个 复杂 的 问题 ， 有 很 多 语言 
上 的 特殊 情况 ， 但 是 Python 核心 团队 尽力 提供 了 一 种 方案 ， 能 满足 大 多 数 用 
户 的 需求 。 

接 下 来 的 几 节 将 使 用 这 些 规范 化 知识 来 开发 几 个 实用 的 函数 。 

4.6.2 ”规范 化 文本 匹配 实用 函数 

由 前 文 可 知 ，NFC 和 NFD 可 以 放心 使 用 ， 而 且 能 合理 比较 Unicode 字符 


串 。 对 大 多 数 应 用 来 说 ，NFC 是 最 好 的 规范 化 形式 。 不 区 分 大 小 写 的 比较 应 
该 使 用 str.casefold() ° 


如 果 要 处 理 多 语言 文本 ， 工 具 箱 中 应 该 有 示例 4-13 中 的 nfc_equal 和 
fold_equal 函数 。 


示例 4-13 normeg.py: 比较 规范 化 Unicode 字符 串 


Utility functions for normalized Unicode string comparison. 


Using Normal Form C, case sensitive: 


>>> si = 'café' 

>>> s2 = 'cafe\u0301' 
>>> si == s2 

False 

>>> nfc_equal(si, s2) 
True 

>>> nfc_equal('A', 'a') 
False 


Using Normal Form C with case folding: 


>>> s3 = 'Strafse' 

>>> s4 = 'strasse' 

>>> S3 == s4 

False 

>>> nfc_equal(s3, s4) 
False 

>>> fold_equal(s3, s4) 
True 

>>> fold_equal(si, s2) 
True 

>>> fold_equal('A', 'a') 
True 


from unicodedata import normalize 


def nfc_equal(stri, str2): 
return normalize('NFC', str1) == normalize('NFC', str2) 


def fold_equal(stri, str2): 
return (normalize('NFC', stri).casefold() == 
normalize('NFC', str2).casefold()) 


除了 Unicode WARNE (二 者 都 是 Unicode 标准 的 一 部 分 ) 之 
外 ， 有 时 需 a 例如 把 'café' BRK 'cafe' 
说 明 何 时 以 及 如 何 进行 这 种 转换 。 


46.3 ”极端 “规范 化 ">: 去 掉 变 音符 号 


Google 搜索 涉及 很 多 技术 ， 其 中 一 个 显然 是 忽略 变 音 符号 〈 如 重音 符 、 下 加 
符 等 ) ， 至 少 在 某 些 情况 下 会 这 么 做 。 去 掉 变 音符 号 不 是 正确 的 规范 化 方 
式 ， 因 为 这 往往 会 改变 词 的 意思 ， 而 且 厅 能 误 判 搜索 结果 。 但 是 对 现实 生活 
却 有 所 帮助 : 人 们 有 时 很 懒 ， 或 者 不 知道 怎么 正确 使 用 变 音 符号 ， 而 且 拼写 
规则 会 随时 间 变 化 ， 因 此 实际 语言 中 的 重音 经 党 变 来 变 去 。 


除了 搜索 ， 去 掉 变 音符 号 还 能 让 URL 更 易于 阅读 ， 至 少 对 拉丁 语系 语言 是 
如 此 。 下 面 是 维基 百科 中 介绍 圣保罗 市 (Sao Paulo) 的 文章 的 URL: 


http://en.wikipedia. org/wiki/S%C3%A30_Paulo 


其 中 ，“%C3%A3” 是 UTF-8 编码 “和 "字母 〈 带 有 波形 符 的 “a”) 转 义 后 得 到 的 
结 有 末 。 下 述 形 式 更 友好 ， 尽 管 拼 写 是 错误 的 : 


http://en.wikipedia.org/wiki/Sao_Paulo 


如 果 想 把 字符 串 中 的 所 有 变 音符 号 都 去 掉 ， 可 以 使 用 示例 4-14 中 的 函数 。 
示例 4-14 去掉 全 部 组 合 记 号 的 函数 (在 sanitize. py 模块 中 ) 


import unicodedata 
import string 


def shave_marks(txt): 
""" 去 掉 全 部 变 音符 号 """ 
norm_txt = unicodedata.normalize('NFD', txt) @ 
shaved = ''.join(c for c in norm_txt 
if not unicodedata.combining(c)) @ 


return unicodedata.normalize('NFC', shaved) © 


@ 把 所 有 字符 分 解 成 基 字 符 和 组 合 记号 。 
@ 过 滤 掉 所 有 组 合 记号 。 
© 重组 所 有 字符 。 
示例 4-15 是 shave_marks 函数 的 两 个 使 用 示例 。 
示例 4-15 示例 4-14 中 shave_marks 函数 的 两 个 使 用 示例 


>>> order = '“Herr Vo: * % cup of OEtker™ caffè latte 。 bowl of acai.”' 
>>> shave_marks(order) 


'“Herr Vo: * % cup of OEtker™ caffe latte * bowl of acai.”' @ 


>>> Greek = 'Zémupoc, Zéfiro' 
>>> shave_marks(Greek) 
'Zegupoc, Zefiro' @ 


RET HPE 。 
“e" 和 “" 都 被 蔡 换 了 。 


示例 4-14 中 定义 的 shave_marks 函数 使 用 起 来 没 问 题 ， 但 是 也 许 做 得 太 
多 了 。 通 常 ， 去 掉 变 音符 号 是 为 了 把 拉丁 文本 变 成 纯粹 的 ASCII， 但 是 
shave_marks 函数 还 会 修改 非 拉 丁字 符 〈 如 希腊 字母 ) ， 而 只 去 掉 重 音符 
并 不 能 把 它们 变 成 ASCII 字符 。 因 此 ， 我 们 应 该 分 析 各 个 基 字 符 ， 仅 当 字 符 
在 拉丁 字母 表 中 时 才 删 除 附 加 的 记号 ， 如 示例 4-16 所 示 。 


示例 4-16 ”删除 拉丁 字母 中 组 合 记号 的 函数 (import 语句 省 略 了 ， 
为 这 是 示例 4-14 中 定义 的 sanitize.py 模块 的 一 部 分 ) 


def shave_marks —latin(txt) 


""" 把 拉丁 基 字 符 中 所 有 的 变 音 符号 删除 """ 
norm_txt = unicodedata.normalize('NFD', txt) @ 
latin_base = False 
keepers = [] 
for c in norm_txt: 
if unicodedata.combining(c) and latin_base: @ 
continue # 名 略 拉 丁 基 字符 上 的 变 音符 号 
keepers.append(c) 
# 如 果 不 是 组 合 字符 ， 那 就 是 新 的 基 字 符 
if not unicodedata.combining(c): 
latin_base = c in string.ascii_letters 
shaved = ''.join(keepers) 
return unicodedata.normalize('NFC', shaved) © 


A 


@@ 把 所 有 字符 分 解 成 基 字 符 和 组 合 记 号 。 

O 基 字 符 为 拉丁 字母 时 ， 跳 过 组 合 记号 。 

四 否则， 保存 当前 字符 。 

O 检测 新 的 基 字 符 ， 判 断 是 不 是 拉丁 字母 。 

O 重组 所 有 字符 。 

更 彻底 的 规范 化 步骤 是 把 西 文 文本 中 的 常见 符号 《如 弯 引 号 、 长 破 折 号 、 


目 符号 ， 等 等 ) 替换 成 ASCII 中 的 对 等 字符 。 示 例 4-17 中 的 asciize E 
就 是 这 么 做 的 。 


示例 4-17 ”把 一 些 西 文 印 刷 字 符 转 换 成 ASCII 字符 (这 个 代码 片段 也 是 
示例 4-14 中 sanitize.py 模块 的 一 部 分 ) 


ns 417141e_ Th 


single_map = str.maketrans(""",f,,T*< -"> , Q 
pan iy Lc AN ct ~>""") 


multi map = str.maketrans({ © 
'€': '<euro>', 
en SA 
'OE': 'OE', 
TIMI "(TM )', 
‘oe': 'oe', 
'%': '<per mille>', 
oe ee 


}) 


multi_map.update(single_map) ® 


def dewinize(txt): 
""" 把 win1252 符 号 替换 成 ASCII 字 符 或 序列 """ 
return txt.translate(multi_map) ©@ 


def asciize(txt): 
no_marks = shave_marks_latin(dewinize(txt) ) 
no_marks = no_marks.replace('f', 'ss') 
return unicodedata.normalize('NFKC', no_marks) 


@ 构建 字符 替换 字符 的 映射 表 。 
@ 构建 字符 替换 字符 串 的 映射 表 。 
© AIM TRA ° 


O dewinize 函数 不 影响 ASCII BK latini 文本 ， 只 替换 Microsoft 在 
cp1252 中 为 latin1 额外 添加 的 字符 。 


© 调用 dewinize 函数 ， 然 后 去 掉 变 音符 号 。 


Pia Eszett 替换 成 <ss”〈 这 里 没有 使 用 大 小 写 折 县 ， 因 为 我 们 想 保 留 大 
小 写 ) 。 


@ 使 用 NFKC 规范 化 形式 把 字符 和 与 之 兼容 的 码 位 组 合 起 来 。 


示例 4-18 是 asciize 函数 的 使 用 示例 。 


示例 4-18 示例 4-17 中 asciize 函数 的 使 用 示例 


>>> order = '“Herr Vo: * % cup of OEtker™ caffè latte 。 bowl of acai.”' 
>>> dewinize(order) 


"Herr Vo: - % cup of OEtker(TM) caffè latte - bowl of acai."' @ 


>>> asciize(order ) 
'"Herr Voss: - 1/2 cup of OEtker(TM) caffe latte - bowl of acai."' @ 


@ dewinize 函数 奉 换 弯 引 号 、 项 目 符号 和 TYM (ATS) 。 


@ asciize 函数 调用 dewinize 函数 ， 去 掉 变 音符 号 ， 还 会 替换 'R'。 


ox 不 同 语言 删除 变 音符 号 的 规则 也 有 所 不 同 。 例 如 ， 'ü 
变 成 'ue'。 我 们 定义 的 asciize 函数 没 这 么 精确 ， 因 此 可 能 合 你 
的 语言 ， 也 可 能 不 适合 。 不 过 ， 它 对 葡萄 牙 语 的 处 理 是 可 
综 上 ，sanitize.py FAYE 数 做 的 事情 超出 了 标准 的 规范 化 ， 而 且 会 对 文本 做 
进一步 处 理 ， 很 有 可 能 会 改变 原 ik ° 只 有 知道 目标 语言 、 目 标 用 户 群 和 转换 
后 的 用 途 ， 才 能 确定 要 不 要 做 这 么 深入 的 规范 化 。 
我 们 对 Unicode 文本 规范 化 的 讨论 到 此 结 


接 下 来 要 解决 的 Unicode 问题 是 ...... 排序 。 


4.7 Unicode 文本 排序 


Python 比较 任何 类 型 的 序列 时 ， 会 一 一 比较 序列 里 的 各 个 元 素 。 对 字符 串 来 
说 ， 比 较 的 是 码 位 。 可 是 在 比较 非 ASCI 字符 时 ， 得 到 的 结果 不 尽 如 人 意 。 


下 面 对 一 个 生长 在 巴西 的 水 果 的 列表 进行 排序 : 


>>> fruits = ['caju', ‘atemoia', 'cajá', 'açaí', 'acerola'] 
>>> sorted(fruits) 
['acerola', ‘atemoia', 'açaí', 'caju', 'caja'] 


不 同 的 区 域 采 用 的 排序 规则 有 所 不 同 ， 午 萄 牙 语 等 很 多 语言 按照 拉 Bh ae 
排序 ， 重 音符 号 和 下 加 符 对 排序 几乎 没什么 影响 。? 因此 ， 排 序 时 “caj 生 视 


作 “caja”， 必 定 排 在 “caju” 前 面 。 


9 变 音 符号 对 排序 有 影响 的 情况 很 少 发 生 ， 只 有 两 个 词 之 间 唯 有 变 音符 号 不 同时 才 有 影响 。 此 时 ， 带 
ce S 号 的 词 排 在 常规 词 的 后 面 。 


a 


排序 后 的 fruits 列表 应 该 是 : 


['acai', 'acerola', 'atemoia', 'cajá', 'caju'] 


在 Python 中 ， 非 ASCII 文本 的 标准 排序 方式 是 使 用 locale .strxfrm & 
数 ， 根 据 locale 模块 的 文档 ， 这 个 函数 会 “把 字符 串 转 换 成 适合 所 在 区 域 
HEAT ERATE Th” © 

使 用 locale.strxfrm 函数 之 前 ， 必 须 先 为 应 用 设 定 合 适 的 区 域 设置 ， 还 
要 祈祷 操作 系统 支持 这 项 设置 。 在 区 域 设 为 pt_BR AY GNU/Linux (Ubuntu 
14.04) 中 ， 可 以 使 用 示例 4-19 中 的 命令 。 


示例 4-19 使 用 locale.strxfrm 函数 做 排序 键 


>>> import locale 

>>> locale.setlocale(locale.LC_COLLATE, 'pt_BR.UTF-8') 
'pt_BR.UTF-8' 

>>> fruits = ['caju', ‘atemoia', 'caja', 'açaí', ‘acerola'] 
>>> sorted_fruits = sorted(fruits, key=locale.strxfrm) 

>>> sorted_fruits 

['açaí', 'acerola', 'atemoia', 'caja', 'caju'] 


因此 ， 使 用 locale.strxfrm HAE HE AT, Eyi 
setlocale(LC_COLLATE, «your_locale») ° 


Ait, AJL BER ° 


。 区域 设置 是 全 局 的 ， 因 此 不 推荐 在 库 中 调用 setlocale HX ° MAE 
框架 应 该 在 进程 启动 时 设 定 区 域 设 置 ， 而 且 此 后 不 要 再 修改 。 


。 操作 系统 必须 文 持 区 域 设 置 ， 否 则 setlocale 函数 会 抛 出 
locale.Error: unsupported locale setting =% ° 


。 必须 知道 如 何 拼写 区 域名 称 。 它 在 Unix 衍生 系统 中 几乎 已 经 形成 标 
准 ， 要 通过 'language_code.encoding' 获取 。 了 但 是 在 Windows 
中 ， 句 法 复杂 一 些 : Language Name-Language Variant_Region 
Name,codepage。 注 意 ,“Language Name”( 语 言 名 称 ) 、“Language 
Variant” OEA GA) 和 “Region Name” (KZ) 中 可 以 包含 空格 ， 除 
了 第 一 部 分 之 外 ， 其 他 部 分 的 前 面 是 不 同 的 字符 : 一 个 连 字 符 、 一 个 下 
划 线 和 一 个 点 号 。 除 了 语言 名 称 之 外 ， 其 他 部 分 好 像 都 是 可 选 的 。 例 
如 ，English_United States.850， 它 的 语言 名 称 是 “English”， 区 


jak “United States”, {iS T “850” ° Windows 能 理解 的 语言 名 称 和 区 
域名 见于 MSDN 中 的 文章 “Language Identifier Constants and Strings”, 14 
有 “Code Page Identifiers.aspx)” 一 文 列 出 了 最 后 一 部 分 的 代码 页 数字 。 蔚 


操作 系统 的 制作 者 必须 正确 实现 了 所 设 的 区 域 。 我 在 Ubuntu 14.04 中 成 
功 了 ， 但 在 0S X (Mavericks 10.9) 中 却 失 败 了 。 在 两 台 Mac 中 ， 调 用 
setlocale(LC_COLLATE, 'pt_BR.UTF-8') 返回 的 都 是 字符 串 
'pt_BR.UTF-8' ， 没 有 任何 问题 。 但 是 ，sorted(fruits， 
key=locale.strxfrm) 得 到 的 结果 与 sorted(fruits) 一 样 ， 是 
错误 的 。 我 还 在 OS X 中 党 试 了 fr_FR、es_ES 和 de_DE， 但 是 
locale.strxfrm 并 未 起 作用 。2 


UE Linux 操作 系统 中 ， 中 国 大 陆 的 读者 可 以 使 用 zh_cN .UTF-8， 简 体 中 文 会 按照 汉语 拼音 顺序 进 
行 排序 ， 它 也 能 对 葡萄 牙 语 进 行 正确 排序 。 编者 注 


11st Leonardo Rochael， 他 所 做 的 工作 超出 了 身 为 技术 审 校 的 职责 ， 虽 然 他 是 GNU/Linux 用 户 ， 但 
却 研 究 了 这 些 Windows 细节 。 


同样， 我 没 找到 解决 方案 ， 不 过 却 发 现 其 他 人 也 报告 了 同样 的 问题 。 本 书 技术 审 校 之 一 Alex 
vt ERA OS X 10.9 的 Mac 电脑 中 使 用 setlocale Ñ locale.strxfrm 时 没有 遇 到 问 
题 。 Se: 结 Te 大 人 T° 


因此 ， 标 准 库 提 供 的 国际 化 排序 方案 可 用 ， 但 是 似乎 只 支持 GNU/Linux (可 
能 也 文 持 Windows， 但 你 得 是 专家 ) 。 即 便 如 此 ， 还 要 依赖 区 域 设 置 ， 而 这 
会 为 部 署 融 来 问题 。 


素 好 ， 有 个 较为 简单 的 方案 : PyPI 中 的 PyUCA 库 。 
使 用 Unicode 排 序 算法 排序 
James Tauber， 一 位 高 产 的 Django 贡献 者 ， 他 一 定 是 感受 到 了 这 一 痛 点 ， 


此 开发 了 PyUCA JE, Xæ Unicode 排序 算法 (Unicode Collation 
UCA) 的 纯 Python 实现 。 示 例 4-20 展示 了 它 的 简单 用 法 。 


示例 4-20 使 用 pyuca.Ccollator.sort_key 方法 


>>> import pyuca 

>>> coll = pyuca.Collator() 

>>> fruits = ['caju', ‘atemoia', 'cajá', 'açaí', ‘acerola'] 
>>> sorted_fruits = sorted(fruits, key=coll.sort_key) 

>>> sorted_fruits 

['agai', 'acerola', 'atemoia', 'caja', 'caju'] 


这 样 做 更 友好 ， 而 且 恰 好 可 用 。 我 在 GNU/Linux、OS X 和 Windows 中 做 过 
测试 。 目 前 ，PyUCA 只 支持 Python 3.x ° £ 


139015 年 5 A, PyUCA 重新 支持 Python 2.x， 参 见 : http://jktauber.com/2015/05/13/pyuca-supports- 
python-2-again ° 编者 注 


PyUCA 没有 考虑 区 域 设置 。 如 果 想 定制 排序 方式 ， 可 以 把 自 定义 的 排序 表 
路 径 传 给 Collator() 构造 方法 。PyUCA 默认 使 用 项 目 自 带 的 
allkeys.txt, 3X Unicode 6.3.0 的 “Default Unicode Collation Element 
Table” 的 副本 。 


顺便 说 一 下 ， 那 个 表 且 Unicode 数据 库 中 众多 表 中 的 一 个 。 下 一 节 会 讨论 这 


个 话题 。 


4.8 Unicode JÆ 


Unicode 标准 提供 了 一 个 完整 的 数据 库 (许多 格式 化 的 文本 文件 ) ， 不 仅 包 
括 码 位 与 字符 名 称 之 间 的 映射 ， 还 有 各 个 字符 的 元 数据 ， 以 及 字符 之 间 的 关 
系 。 例 如 ，Unicode 数据 库 记 录 了 字符 是 否 可 以 打印 、 是 不 是 字母 、 是 不 是 
数字 ， 或 者 是 不 是 其 他 数值 符号 。 字 符 串 的 isidentifier ->` 

isprintable、isdecimal 和 isnumeric 等 方法 就 是 靠 这 些 信息 作 判 断 


的 。str.casefold 方法 也 用 到 了 Unicode 表 中 的 信息 。 


unicodedata 模块 中 有 几 个 函数 用 于 获取 字符 的 元 数据 。 例 如 ， 字 符 在 标准 中 
的 官方 名 称 是 不 是 组 合 字符 (如 结合 波形 符 构 成 的 变 首 符号 等 ) ， 以 及 符号 
对 应 的 人 类 可 读数 值 (不 是 码 位 ) 。 示 例 4-21 展示 了 
unicodedata.name() 和 unicodedata.numeric() 函数 ， 以 及 字符 串 
的 ,isdecimal() 和 .isnumeric( ) 方法 的 用 法 。 


示例 4-21 Unicode 数据 库 中 数值 字符 的 元 数据 示例 (各 个 标号 说 明 输 
出 中 的 各 列 ) 


import unicodedata 
import re 


re_digit = re.compile(r'\d') 
sample = '1\xbc\xb2\u0969\u136b\u216b\u2466\uU2480\uU3285 ' 


for char in sample: 
print('U+%04x' % ord(char), 
char.center(6), 
"re_dig' if re_digit.match(char) else '-', 


OO® 


‘isdig' if char.isdigit() else '-', 
"isnum' if char.isnumeric() else '-', 
format(unicodedata.numeric(char), '5.2f'), 
unicodedata.name(char), 

sep='\t') 


909000 


@ U+0000 格式 的 码 位 。 
O 在 长 度 为 6 的 字符 串 中 居中 显示 字符 。 
© 如 果 字 符 匹 配 正 则 表达 式 r'\d'， 显 示 re_dig。 


@ WER char.isdigit() 返回 True， 显 示 Isdig。 
四 如 果 char .isnumeric() 返回 True， 显 示 Isnum。 
@ 使 用 长 度 为 5、 人 小数点 后 保留 2 位 的 浮 点 数 显示 数值 。 
@ Unicode 标准 中 字符 的 名 称 。 

行 示 例 4-21 得 到 的 结果 如 图 4-3 所 示 。 


运 
4-3 中 的 第 6 列 是 在 字符 上 调用 unicodedata,numeric(char ) 函数 
得 
想 


到 的 结果。 这 表明 ，Unicode 知道 表示 数字 的 符号 的 数值 。 因 此 ， 如 采 你 
创建 一 个 文 持 泰 米尔 数字 和 有 罗马 数字 的 电子 表格 应 用 ， 那 就 尽管 去 做 吧 ! 


aeoo n 5. bash 


$ python3 numerics_demo.py 

U+0031 1 re_dig isdig isnum 1.00 DIGIT ONE 

U+0@bc % - - isnum 0.25 VULGAR FRACTION ONE QUARTER 
U+00b2 2 - isdig isnum 2.00 SUPERSCRIPT TWO 

U+0969 a re_dig isdig isnum 3.00 DEVANAGARI DIGIT THREE 
U+136b p - isdig isnum 3.00 ETHIOPIC DIGIT THREE 
U+216b XII - - isnum 12.00 ROMAN NUMERAL TWELVE 
U+2466 O = isdig isnum 7.00 CIRCLED DIGIT SEVEN 

U+2480 的 - - isnum 13.00 PARENTHESIZED NUMBER THIRTEEN 
s ® - isnum 6.00 CIRCLED IDEOGRAPH SIX 

$ 


图 4-3: 9 个 数值 字符 及 其 元 数据 ;re_dig 表示 字符 匹配 正则 表达 式 
r'\d' 


4-3 表明 ， 正 则 表达 式 r'\d' 能 匹配 数字 “1 和 梵文 数字 3， 但 是 不 能 匹 
AC isdigit 方法 判断 为 数字 的 其 他 字符 。re 模块 对 Unicode 的 文 持 并 不 充 
分 。PyPI 中 有 个 新 开发 的 regex 模块 ， 它 的 最 终 目 的 是 取代 re 模块 ， 以 
提供 更 好 的 Unicode 文 持 。 于 下 一 节 会 回 过 头 来 讨论 re 模块 。 


4 不 过 在 这 个 示例 中 ， 它 在 识别 数字 方面 的 表现 没有 re 模块 好 。 


本 章 使 用 了 unicodedata 模块 中 的 几 个 函数 ， 但 是 还 有 很 多 没有 用 到 。 详 
情 参阅 标准 库 文 档 对 unicodedata 模块 的 说 明 。 


在 结束 对 字符 捉 和 字 节 序列 的 讨论 之 前 ， 我 们 还 要 简要 说 明 一 个 新 的 趋势 
双 模 式 API， 即 提供 的 函数 能 接受 字符 串 或 字 节 序列 为 参数 ， 然 后 根据 
类 型 进行 特殊 处 理 。 


4.9 ”支持 字符 串 和 字 节 序列 的 双 模 式 API 


标准 库 中 的 一 些 画 数 能 接受 字符 串 或 字 节 序列 为 参数 ， 然 后 根据 类 型 展现 不 
同 的 行为 。re 和 os 模块 中 就 有 这 样 的 画 数 。 


4.9.1 正则 表达 式 中 的 字符 串 和 字 节 序列 


如 果 使 用 字 节 序列 构建 正则 表达 式 ，\d 和 \w 等 模式 只 能 匹配 ASCI 字符 ; 
相 比 之 下 ， 如 果 是 字符 串 模 式 ， 就 能 匹配 ASCII 之 外 的 Unicode 数字 或 字 

。 示例 4-22 和 图 4-4 展示 了 字符 串 模 式 和 字 节 序列 模式 中 字母 、ASCII 数 
字 、 上 标 和 泰 米尔 数字 的 匹配 情况 。 


示例 4-22 ramanujan.py: 比较 简单 的 字符 串 正则 表达 式 和 字 市 序列 正 
则 表达 式 的 行为 


import re 
re_numbers_str = re.compile(r'\d+') © 
re_words_str = re.compile(r'\wt') 


re_numbers_bytes = re.compile(rb'\d+') @ 
re_words_bytes = re.compile(rb'\wt') 


text_str = ("Ramanujan saw \u@be7\uObed\uObes8\ubbef" © 
" as 1729 = 13 + 123 = 93 + 103.") (4) 


text_bytes = text_str.encode('utf_8') © 


print('Text', repr(text_str), sep='\n ') 
print('Numbers') 


print(' str :', re_numbers_str.findall(text_str)) 
print(' bytes:', re_numbers_bytes.findall(text_bytes) ) 
print('Words') 

print(' str :', re_words_str.findall(text_str)) 
print(' bytes:', re_words_bytes.findall(text_bytes) ) 


OO 89 


@ 前 两 个 正则 表达 式 是 字符 串 类 型 。 
T 


@ 后 两 个 正则 表达 式 是 字 节 序列 类 型 。 


na a Unicode 文本 ， 包 括 1729 的 泰 米尔 数字 (逻辑 行 直到 右 括号 才 


@ 这 个 字符 串 在 编译 时 与 前 一 个 拼接 起 来 (参见 Python 语言 参考 手册 中 
的 “2.4.2. String literal concatenation”) ° 


O 字 市 序列 只 能 用 字 节 序列 正则 表达 式 搜索 。 
O 字符 串 模 式 r'\d+' 能 匹配 泰 米尔 数字 和 ASCI 数字 。 
O FFIR rb'\d+' 只 能 匹配 ASCH 字 节 中 的 数字 。 
字符 串 模 式 r'\w+' 能 匹配 字母 、 上 标 、 泰 米尔 数字 和 ASCII 数字 。 


© F 
© 字 节 序列 模式 rb'\w+' 只 能 匹配 ASCH 字 节 中 的 字母 和 数字 © 


eoo 1. bash 
$ python3 ramanujan.py 
Text 
"Ramanujan saw sass as 1729 = 13 + 123 = 93 + 103." 
Numbers 


str’ : ['saæs', '1729', '1', '12', '9', '10'] 
bytes: [b'1729', b'1', b'12', b'9', b'10'] 


str : ['Ramanujan', 'saw', 'saow', 'as', '1729', '13', '123", '93', '103"] 
bytes: [b'Ramanujan', b'saw', b'as', b'1729', b'1', b'12', b'9', b'10'] 


图 4-4: 运行 示例 4-22 中 的 ramanujan.py 脚本 时 的 截图 


示例 4-22 是 随便 举 的 例子 ， 为 的 是 说 明 一 个 问题 ， 可 以 使 用 正则 表达 式 搜索 
字符 串 和 字 节 序列 ， 但 是 在 后 一 种 情况 中 ，ASCII 范围 外 的 字 节 不 会 当成 数 
字 和 组 成 单词 的 字母 。 


字符 串 正 则 表达 式 有 个 re.ASCII 标志 ,， 它 让 \w、\W、\b、\B、\d、 
\D > \s 和 AS 只 匹配 ASCI 字符 。 详 情 参 阅 re 模块 的 文档 。 


男 一 个 重要 的 双 模 式 模块 是 0S。 
4.9.2 ”os 画 数 中 的 字符 串 和 字 节 序列 
GNU/Linux 内 核 不 理解 Unicode， 因 此 你 可 能 发 现 了 ， 对 任何 合理 的 编码 方 


案 来 说 ， 在 文件 名 中 使 用 字 市 序列 都 是 无 效 的 ， 无 法 解码 成 字符 串 。 在 不 同 
Geo ee en ee 在 过 到 这 个 问题 时 尤其 容易 出 
本 


为 了 规避 这 个 问题 ，os 模块 中 的 所 有 函数 、 文 件 名 或 路 径 名 参数 既 能 使 用 
字符 串 ， 也 能 使 用 字 节 序列 。 如 果 这 样 的 函数 使 用 字符 串 参 数 调用 ， 该 参数 
会 使 用 sys .getfilesystemencoding( ) 得 到 的 编 解 码 器 自动 编码 ， 然 
后 操作 系统 会 使 用 相同 的 编 解 码 器 解码 。 这 几乎 束 是 我 们 想 要 的 行为 ， 与 
Unicode 三 明治 最 佳 实践 一 致 。 


但 是 ， 如 采 必 须 处 理 (也 可 能 是 修正 ) 那些 无 法 使 用 上 述 方式 自动 处 理 的 文 
件 名 ， 可 以 把 字 世 序列 参数 传 给 os RRP, EIS PTE ° 
ee 不 管 里 面 有 多 少见 符 ， 如 示例 
4-23 所 示 。 


示例 4-23 ”把 字符 串 和 字 节 序列 参数 传 给 1istdir 函数 得 到 的 结果 


>>> os.listdir('.') # @ 

['abc.txt', 'digits-of-1m.txt'] 

>>> os.listdir(b'.') # @ 

[b'abc.txt', b'digits-of-\xcf\x80.txt'] 


@ 第 二 个 文件 名 是 “digits-of-n.txt”( 有 一 个 希腊 字母 n) ° 


O 参数 是 字 节 序列 ，1istdir 函数 返回 的 文件 名 也 是 字 节 序列 : 
b'\xcf\x80' 是 希腊 字母 7 的 UTE-8 编码 。 


为 了 便于 手动 处 理 字符 串 或 字 节 序列 形式 的 文件 名 或 路 径 名 ，os 模块 提供 
了 特殊 的 编码 和 解码 画 数 。 


fsencode(filename) 


如 果 filename 是 str 类 型 (此 外 还 可 能 是 bytes 类 型 ) ， 使 用 
sys.getfilesystemencoding( ) 返回 的 编 解 码 器 把 filename 编码 成 
字 节 序列 ;和 否则， 返回 未 经 修改 的 Filename FHEA] ° 


fsdecode(filename) 


如 果 filename Æ bytes 类 型 (此 外 还 可 能 是 str RÆ) ， 使 用 
sys.getfilesystemencoding() 返回 的 编 解码 器 把 filename 解码 成 
字符 串 ， 否 则 ， 返 回 未 经 修改 的 filename 字符 串 。 


在 Unix 衍生 平台 中 ， 这 些 函 数 使 用 surrogateescape 错误 处 理 方式 (2 
见 下 述 附 注 栏 ， 以 避免 遇 到 意外 字 节 序列 时 卡 住 。Windows 使 用 的 错误 处 理 
方式 是 strict。 


使 用 surrogateescape AF 


Python 3.1 引入 的 surrogateescape 编 解 码 器 错误 处 理 方 式 是 处 理 意 
外 字 节 序列 或 未 知 编码 的 一 种 方式 ， 它 的 说 明 参 见 “PEP 383 一 Non- 
decodable Bytes in System Character Interfaces” ° 


TOP ES TRAD BT SUSE PCIE PS FT EAB Unicode 中 U+DC00 
到 U+DCFF 之 间 的 码 位 (Unicode 标准 把 这 些 码 位 称 为 “Low Surrogate 
Area”) ， 这 些 码 位 是 保留 的 ， 没 有 分 配 字符 ， 供 应 用 程序 内 部 使 用 。 
编码 时 ， 这 些 码 位 会 转换 成 被 蔡 换 的 字 闻 值 ， 如 示例 4-24 所 示 。 


示例 4-24 使 用 surrogateescape 错误 处 理 方式 


>>> os.listdir('.') @ 

['abc.txt', 'digits-of-m.txt'] 

>>> os.listdir(b'.') @ 

[b'abc.txt', b'digits-of-\xcf\x80.txt'] 
>>> pi_name_bytes = os.listdir(b'.')[1] © 


>>> pi_name_str = pi_name_bytes.decode('ascii', 'surrogateescape' ) 
(4) 

>>> pi_name_str © 

‘'digits-of-\udccf\udc80.txt' 

>>> pi_name_str.encode('ascii', 'surrogateescape') © 
b'digits-of-\xcf\x80.txt 


@ 列 出 目录 里 的 文件 ， 有 个 文件 名 中 包含 非 ASCII 字符 。 
O 假设 我 们 不 知道 编码 ， 获 取 文 件 名 的 字 世 序列 形式 。 


© pi_names_bytes 是 包含 nt 的 文件 名 。 


@ 使 用 'ascii' 编 解 码 器 和 ' surrogateescape' 错误 处 理 方式 把 它 
解码 成 字符 串 。 


加 各 个 非 ASCI F HRR: '\xcf\x80' 变 成 
T '\udccf\udc8o0' œ 


@ 编码 成 ASCII 字 节 序列 ; 各 个 代替 码 位 还 原 成 被 替换 的 字 节 。 
我 们 对 字符 串 和 字 节 序列 的 探讨 到 此 结束 。 如 果 你 坚持 读 到 这 里 ， 恭 喜 你 ， 


4.10 ”本 章 小 结 


本 章 首 先 党 清 了 人 们 对 一 个 字符 等 于 一 个 字 市 的 误解 。 随 着 Unicode 的 广泛 
使 用 (80% 的 网 站 已 经 使 用 UTF-8) ， 我 们 必须 把 文本 字符 串 与 它们 在 文件 
中 的 二 进 制 序列 表述 区 分 开 ， 而 Python 3 中 这 个 区 分 古 强 制 的 。 


对 bytes、bytearray 和 memoryview 等 二 进 制 序列 数据 类 型 做 了 简要 
概述 之 后 ， 我 们 转 到 了 编码 和 解码 话题 ， 通 过 示例 展示 了 重要 的 编 解 码 器 ; 
随后 讨论 了 如 何人 避免 和 处 理 自 名 昭著 的 UnicodeEncodeError 和 
UnicodeDecodeError， 以 及 由 于 Python 源码 文件 编码 错误 导致 的 
SyntaxError ° 


讨论 源码 的 编码 问题 时 ， 我 表明 了 自己 对 非 ASCII 标识 符 的 观点 : 如果 代码 
基 的 维护 者 想 使 用 包含 非 ASCI 字符 的 人 类 语言 命名 标识 符 ， 那 就 去 做 ， 除 
非 还 想 在 Python 2 中 运行 代码 。 但 是 ， 如 果 项 目 想 吸引 世界 各 国 的 贡献 者 ， 
那么 标识 符 应 该 使 用 英语 单词 ， 此 时 ASCII 就 够 用 了 ° 


然后 ， 我 们 说 明了 在 没有 元 数据 的 情况 下 检测 编码 的 理论 和 实际 情况 : 理论 
上 ， 做 不 到 这 一 点 ;但 是 实际 上 ，Chardet 包 能 够 正确 处 理 一 些 流 行 的 编 
码 。 随 后 介绍 了 字 节 序 标记 ， 这 是 UTF-16 和 UTF-32 文件 中 常见 的 编码 提 
示 ， 某 些 UTF-8 文件 中 也 有 。 


随后 的 一 节 演 示 了 如 何 打开 文本 文件 ， 这 是 一 项 简单 的 任务 ， 不 过 有 个 陷 
阱 : 打开 文本 文件 时 ，encoding= 关键 字 参 数 不 是 必需 的 ， 但 是 应 该 指 
定 。 如 果 没 有 指定 编码 ， 那 么 程序 会 想方设法 生成 “< 纯 文本 ， 如 此 一 来 ， 不 
一 致 的 默认 编码 就 会 导致 跨 平 台 不 兼容 性 。 然 后 ， 我 们 说 明了 Python HEE 
认 值 的 几 个 编码 设置 ， 以 及 如 何 检 测 它 们 : 


locale.getpreferredencoding()、 


sys.getfilesystemencoding() »sys.getdefaultencoding(), 

以 及 标准 WO 文件 (如 sys.stdout.encoding) 的 编码 。 对 Windows 用 
户 来 说 ， 现 实 不 容 乐观 : 这 些 设置 在 同一 台 设 备 中 往往 有 不 同 的 值 ， 而 且 各 
个 设置 相互 不 兼容 。 而 对 GNU/ Linux 和 OS X 用 户 来 说 ， 情 况 就 好 多 了 ， 几 
乎 所 有 地 方 使 用 的 默认 值 都 是 UTF-8 ° 


文本 比较 是 个 异常 复杂 的 任务 ， 因 为 Unicode 为 某 些 字符 提供 了 不 同 的 表 
示 ， 所 以 匹配 文本 之 前 一 定 要 先 规范 化 。 说 明 规 范 化 和 大 小 写 折 从 之 后 ， 我 
们 提供 了 几 个 实用 函数 ， 你 可 以 根据 自己 的 需求 改编 。 其 中 有 个 函数 所 做 的 
是 极 端 转换 ， 比 如 去 掉 所 有 重音 符号 。 随 后 ， 我 们 说 明了 如 何 使 用 标准 库 中 
的 locale 模块 正确 地 排序 Unicode 文本 《有 一 些 注意 事项 ) ; 此 外 ， 还 可 
以 使 用 外 部 的 PyUCA 包 ， 从 而 无 需 依赖 捉摸 不 定 的 区 域 配 置 。 


最 后 简要 介绍 了 Unicode 数据 库 (包含 每 个 字符 的 元 数据 ) ， 还 简单 讨论 了 
双 模 式 API (例如 re 和 os 模块 ， 这 两 个 模块 中 的 某 些 函数 可 以 接受 字符 串 
或 字 节 序列 参数 ， 返 回 不 同 但 合适 的 结果 ) 。 


4.11 ”延伸 阅读 


Ned Batchelder 在 2012 年 的 PyCon US 所 做 的 演讲 “Pragmatic Unicode 一 or 一 
How Do I Stop the Pain?” 非 常 出 色 。Ned 很 专业 ， 除 了 幻灯 片 和 视频 之 外 ， 
他 还 提供 了 完整 的 文字 记录 。Esther Nam 和 Travis Fischer 在 PyCon 2014 做 
了 一 场 精 彩 的 演讲 : “Character encoding and Unicode in Python: How to (J ° O 
0) J LL with dignity” 幻 灯 片 ，[ 视 频 ]。 本 章 开 头 那 句 简短 有 力 的 话 就 是 出 
自 这 次 演讲 : “人 类 使 用 文本 ， 计 算 机 使 用 字 节 序列 。?” 本 书 的 技术 审 校 之 一 
Lennart Regebro 在 “Unconfusing Unicode: What Is Unicode?” 这 篇 短文 中 提出 
J “Useful Mental Model of Unicode (UMMU) ” ° Unicode 是 个 复杂 的 标准 ， 
Lennart 提出 的 UMMU 是 个 很 好 的 切入 点 。 


Python 文档 中 的 “Unicode HOWTO” 一 文 从 几 个 不 同 的 角度 对 本 章 所 涉及 的 话 
题 做 了 讨论 ， 从 编码 历史 到 句法 细 世 、 编 解码 硕 、 正 则 表达 式 、 文 件 名 和 
Unicode 的 IO 最 佳 实践 〈 即 Unicode 三 明治 ) ， 而 且 各 万 都 给 出 了 大 量 参 
考 资料 链接 。PDive into Python 3 是 一 本 非常 优秀 的 书 (Mark Pilgrim #) ， 

其 中 第 4 章 “Strings” 对 Python 3 对 Unicode 的 支持 做 了 很 好 的 介绍 。 此 外 ， 

该 书 的 第 15 Æt] Chardet 库 从 Python 2 移植 到 Python 3 的 过 程 ， 这 是 一 
个 宝贵 的 案例 分 析 ， 从 中 可 以 看 出 ， 从 旧 的 str 类 型 转 到 新 的 bytes 类 型 
是 造成 迁移 如 此 痛苦 的 主要 原因 ， 也 是 检测 编码 的 库 应 该 关注 的 重点 。 


如 果 你 用 过 Python 2， 但 是 刚 接 触 Python 3， 可 以 阅读 Guido van Rossum 写 
的 “What's New in Python 3.0”， 这 篇 文章 简要 列 出 了 新 版 的 15 点 变化 ， 而 且 


附 有 很 多 链接 。Guido 开门 见 山 地 说 道 :“ 你 上 自 以为 知 道 的 二 进 制 数 据 和 
Unicode 知识 全 都 变 了 。”Armin Ronacher 的 博客 文章 *The Updated Guide to 
Unicode on Python” 深 入 分 析 了 Python 3 中 Unicode 的 一 些 陷 阱 (Armin 不 是 
很 热衷 于 Python 3) 。 


《Python Cookbook 〈 第 3 hig) 中 文 版 》 (David Beazley 和 Brian K. Jones 
E) 的 第 2 章 “ 字 符 串 和 文本 ”中 有 几 个 诀窍 谈 到 了 Unicode 规范 化 、 清 洗 文 
本 ， 以 及 在 字 节 序列 上 执行 面向 文本 的 操作 。 第 5 章 涵 盖 文 件 和 IO ,，“5.17 
将 字 节 数据 写 入 文本 文件 ”指出 ， 任 何 文本 文件 的 底层 都 有 一 个 二 进 制 流 ， 
sea weal 问 。 之 后 的 “6.11 读 写 二 进 制 结构 的 数组 ”用 到 了 
struct 模块 。 


Nick Coghlan 的 “Python Notes” 博 客 中 有 两 篇 文章 与 本 章 的 话题 十 分 相 
关 : “Python 3 and ASCII Compatible Binary Protocols” 和 “Processing Text Files 
in Python 3”。 强烈 推荐 阅读 。 


Python 3.5 将 为 二 进 制 序 列 引 入 新 的 构造 方法 和 方法 ， 而 且 会 废弃 目前 使 用 
的 构造 方法 签名 (参见 “PEP 467 一 Minor API improvements for binary 
sequences”) 。 此 外 ，Python 3.5 还 会 实现 “PEP 461 一 Adding % formatting to 
bytes and bytearray” ° 


Python 支持 的 编码 列表 参见 codecs 模块 文档 的 “Standard Encodings” 一 他 。 
如 果 需 要 通过 编程 的 方式 获得 那个 列表 ， 看 看 CPython 源码 中 
/Tools/unicode/listcodecs.py 脚本 是 怎么 做 的 。 


Martijn Faassen 的 文章 “Changing the Python Default Encoding Considered 
Harmful” Fl Tarek ZiadéH) X Æ “sys.setdefaultencoding Is Evil 解释 了 为 什么 一 
定 不 能 修改 sys. getdefaultencoding( ) 获取 的 编码 ， 即 便 知 道 怎 么 做 
也 不 能 改 。 


Unicode Explained (Jukka K. Korpela %, O'Reilly 出 版 社 ) 和 Unicode 
Demystified (Richard Gillam #, Addison-Wesley 出 版 社 ) 这 两 本 书 不 是 针对 
Python 的 ， 但 在 我 学 习 Unicode 相关 概念 时 给 了 我 很 大 的 帮助 。Victor 
Stinner 的 著作 Programming with Unicode 是 一 本 免费 的 和 目 出 版 图 书 (遵守 
CC BY-SA 协议 ) ， 其 中 讨论 了 一 般 的 Unicode 话题 ， 以 及 主流 操作 系统 和 
几 门 编程 语言 (包括 Python) 中 的 相关 工具 和 API ° 


W3C 网 站 中 的 “Case Folding: An Introduction” 和 “Character Model for the World 
Wide Web: String Matching and Searching” 讨 论 了 规范 化 相关 的 概念 ， 前 者 是 
介绍 性 文章 ， 后 者 则 是 以 枯燥 的 标准 用 语 写 束 的 工作 草案 一 一 “Unicode 
Standard Annex #15—Unicode Normalization Forms” 也 是 这 种 风格 。 


Unicode.org 网 站 中 的 “Frequently Asked Questions / Normalization” 更 容易 理 
解 ，Mark Davis 写 的 “NFC FAQ” 也 是 如 此 。Mark 是 多 个 Unicode 算法 的 作 
者 ， 在 我 写作 本 书 时 ， 他 还 担任 Unicode 联盟 的 主席 。 


杂谈 


“ 纯 文 本 "是 什么 


对 于 经 常 处 理 非 贡 语文 本 的 人 来 说 , “ 纯 文 本 ”并 不 是 指 “ASCI” 。 
Unicode 词汇 表 是 这 样 定义 纯 文本 的 : 


只 由 特定 标准 的 码 位 序列 组 成 的 计算 机 编码 文本 ， 其 中 不 含 其 他 格 
式 化 或 结构 化 信息 。 


这 个 定义 的 前 半 句 说 得 很 好 ， 但 是 我 不 同意 后 半 句 。HTML 就 是 包含 格 
式 化 和 结构 化 信息 的 纯 文 本 格式 ， 但 它 依然 是 纯 文 本 ， 因 为 HTML 文件 
中 的 每 个 字 节 都 表示 文本 字符 (通常 使 用 UTF-8 编码 ) ， 没 有 任何 字 市 
表示 文本 之 外 的 信息 。.png 或 .xsl 文档 则 不 同 ， 其 中 多 数字 节 表 示 打包 
fo eee 
予 州 表 不 。 


这 本 书 是 我 用 一 种 名 为 AsciiDoc (很 讽刺 ) 的 纯 文本 格式 撰写 的 ， 它 是 
O'Reilly 优秀 的 图 书 出 版 平台 Atlas 的 工具 链 中 的 一 部 分 。 AsciiDoc 的 源 
文件 是 纯 文 本 ， 但 用 的 是 UTF-8 编码 ， 而 不 是 ASCII。 如 果 不 这 样 做 的 
人 


Unicode 的 世界 正在 不 断 扩 张 ， 但 是 有 些 边 缘 场景 缺少 支持 工具 。 因 此 
图 4-1、 图 4-3 和 图 4-4 中 的 内 容 要 使 用 图 像 ， 因 为 演 染 本 书 的 字体 中 缺 
少 一 些 我 想 展 示 的 字符 。 不 过 ，Ubuntu 14.04 和 OS X 10.9 的 终端 能 
确 显 示 ， 包 括 “mojibake” (文字 化 叶 ) 这 个 日 文 的 词 。 


HMAK] Unicode 


讨论 Unicode 规范 化 时 ， 我 经 常 使 用 "往往 "多数 "和 "通常 "等 不 确定 的 
修饰 语 。 很 遗憾 ， 我 不 能 提供 更 可 洁 的 建议 ， 因 为 Unicode 规则 有 很 多 
例外 ， 很 难 百分之百 确定 。 


例如 ，h (MRS) 是 “兼容 字符 ”， 而 Q (欧姆 ) 和 A GR) 符号 却 不 
是 。 这 种 差别 是 有 真实 影响 的 : NEC 规范 化 形式 (推荐 用 于 文本 匹配 ) 
Bib Q (欧姆) SAR (KS FEW) ， 把 A GR) BRAK 
A (上 有 圆圈 的 大 写字 母 A) 。 但 是 ， 作 为 “兼容 字符 ”的 ( 微 符 号 ) 


不 会 蔡 换 成 视觉 等 效 的 (小写 希腊 字母 n) ; 不 过 在 使 用 更 极端 的 
NFKC 或 NFKD 规范 化 形式 时 会 蕉 换 ， 但 这 是 有 损 转 换 。 


我 能 理解 为 什么 把 ( 微 符号 ) 纳入 Unicode, ALN latini 编码 中 有 

它 ， 如 果 换 成 希腊 字母 上 ， 会 破坏 两 种 编码 之 间 的 转换 。 说 到 底 ， 这 就 
是 微 符号 是 “兼容 字符 ”的 原因 。 人 但是， 如果 是 由 于 兼容 原因 而 没 把 欧姆 
和 挨 符号 纳入 Unicode， 那 为 什么 这 两 个 符号 要 存在 ? Unicode 已 经 为 

GREEK CAPITAL LETTER OMEGA 和 LATIN CAPITAL LETTER A 

WITH RING ABOVE 分 配 了 码 位 ， 它 们 的 外 观 一 样 ， 而 且 NEC 规范 化 
形式 会 替换 它们 。 想 想 看 吧 。 


研究 Unicode 几 小 时 之 后 ， 我 猜测 的 原因 是 : Unicode RBZ, Fp 
特殊 情况 ， 而 且 要 覆盖 各 种 人 类 语言 和 产业 标准 策略 。 


在 RAM 中 如 何 表示 字符 串 


Python 官方 文档 对 字符 串 的 码 位 在 内 存 中 如 何 存储 避 而 不 谈 。 毕 竞 ， 这 
是 实现 细节 。 理 论 上 ， 怎 么 存储 都 没关系 ， 不 管内 部 表述 如 何 ， 输 出 时 
每 个 字符 串 都 要 编码 成 字 节 序列 。 


在 内 存 中 ，Python 3 使 用 固定 数量 的 字 节 存储 字符 串 的 各 个 码 位 ， 以 便 
高 效 访问 各 个 字符 或 切片 。 


在 Python 3.3 之 前 ， 编 译 CPython 时 可 以 配置 在 内 存 中 使 用 16 位 或 32 
位 存储 各 个 码 位 。16 位 是 “ 罕 构 建 ” (narrow build) ，32 位 是 “ 宽 构 

Œ” (wide build) 。 如 果 想 知道 用 的 是 哪个 ， 要 查看 
sys.maxunicode 的 值 : 65535 表示 “ 罕 构 建 >， 不 能 透明 地 处 理 
U+FFFF 以 上 的 码 位 。“ 宽 构建 ”没有 这 个 限制 ， 但 是 消耗 的 内 存 更 多 : 
每 个 字符 占 4 个 字 节 ， 就 算是 中 文 象形 文字 的 码 位 大 多 数 也 只 占 2 个 字 
节 。 这 两 种 构建 没有 高 下 之 分 ， 应 该 根据 自己 的 需求 选择 。 


从 Python 3.3 起 ， 创 建 str 对 象 时 ， 解 释 器 会 检查 里 面 的 字符 ， 然 后 为 
该 字符 串 选 择 最 经 济 的 内 存 布局 : 如 果 字 符 都 在 latini 字符 集中 ， 那 
就 使 用 1 个 字 节 存储 每 个 码 位 ， 否则， 根据 字符 串 中 的 具体 字符 ， 选 择 
2 个 或 4 个 字 节 存储 每 个 码 位 。 这 是 简 述 ， 完 整 细 广 参阅 “PEP 393 一 
Flexible String Representation” ° 


灵活 的 字符 串 表 述 类 似 于 Python 3 对 int 类 型 的 处 理 方式 : 如 果 一 个 
整数 在 一 个 机 器 字 中 放 得 下 ， 那 就 存储 在 一 个 机 器 字 中 ;否则 解释 器 切 
换 成 变 长 表述 ， 类 似 于 Python 2 中 的 Long 类 型 。 这 种 聪明 的 做 法 得 到 
推广 ， 真 是 让 人 欢喜 ! 


第 三 部 分 “把 男 数 视 作对 象 


第 5 章 — SRA 


不 管 别人 怎么 说 或 怎么 想 ， 我 从 未 觉得 Python 受到 来 目 函 数 式 语言 的 太 
多 影响 。 我 非常 熟悉 命令 式 语言 ， 如 C 和 Algol 68， 虽 然 我 把 函数 定 为 
一 等 对 象 ， 但 是 我 并 不 把 Python 当 作画 数 式 编程 语言 "1 


Guido van Rossum 


Python AJER A 


1 摘录 自 Guido 的 The History of Python 博客 , “Origins of Python's Functional Features” ° 


在 Python 中 ， 画 数 是 一 等 对 象 。 编 程 语言 理论 家 把 “一 等 对 象 "定义 为 满足 下 
述 条 件 的 程序 实体 : 


。 在 运行 时 创建 
能 赋值 给 变量 或 数据 结构 中 的 元 素 
能 作为 参数 传 给 函数 
o BEVEN KIZAN ER 
在 Python 中 ， 人 整数、 字符 串 和 字典 都 是 一 等 对 象 一 一 没什么 特别 的 。 如 有 果 在 


Python 之 前 ， 你 使 用 的 语言 并 未 把 画 数 当 作 一 等 公民 ， 那 么 本 章 以 及 第 三 部 
分 余下 的 内 容 将 重点 讨论 把 画 数 作为 对 象 的 影响 和 实际 应 用 。 


人 
a 
一 等 对 象 。 


5.1 ”把 函数 视 作 对 象 


示例 5-1 中 的 控制 台 会 话 表明 ，Python 函数 是 对 象 。 这 里 我 们 创建 了 一 个 画 
数 ， 然 后 调用 它 ， 读 取 它 的 _、 doc_ 属性， 并 且 确 定 画 数 对 象 本 身 是 
function 类 的 实例 。 


0 


示例 5-1 创建 并 测试 一 个 函数， 然后 读 取 它 的 __doc__ 属性， 再 检查 
ERA 


>>> def factorial(n): @ 
pia '''returns n!'''! 
return 1 if n < 2 else n * factorial(n-1) 


>>> factorial(42) 


1405006117752879898543142606244511569936384000000000 
>>> factorial. _doc_ @ 

'returns n!' 

>>> type(factorial) © 

<class 'function'> 


@ 这 是 一 个 控制 台 会 话 ， 因 此 我 们 是 在 “运行 时 ?创建 一 个 函数 。 
@ doc ”是 函数 对 象 众 多 属性 中 的 一 个 。 
© factorial 是 function 类 的 实例 。 


_doc ”属性 用 于 生成 对 象 的 帮助 文本 。 在 Python 交互 式 控制 台中 ， 
help(factorial) 命令 输出 的 内 容 如 图 5-1 所 示 。 


R 


e090 1. less 


图 5-1: factorial 画 数 的 帮助 界面 ， 输 出 的 文本 来 自 画 数 对 象 的 


__doc__ 


示例 5-2 展示 了 函数 对 象 的 “一 等 ”本 性 。 我 们 可 以 把 factorial 函数 赋值 
给 变量 fact ， 然 后 通过 变量 名 调用 。 我 们 还 能 把 它 作 为 参数 传 给 map K 
数 。map 画 数 返 回 一 个 可 迭代 对 象 ， 里 面 的 元 素 是 把 第 一 个 参数 (一 个 函 
数 ) 应 用 到 第 二 个 参数 〈 一 个 可 迭代 对 象 ， 这 里 是 range(11)) 中 各 个 元 
素 上 得 到 的 结果 。 


示例 5-2 ”通过 别 的 名 称 使 用 函数 ， 再 把 函数 作为 参数 传递 


>>> fact = factorial 

>>> fact 

<function factorial at Ox...> 
>>> fact(5) 

120 


>>> map(factorial, range(11)) 

<map object at Ox...> 

>>> list(map(fact, range(11))) 

[1, 1, 2, 6, 24, 120, 720, 5040, 40320, 362880, 3628800] 


ATEKA ERT DAE EVRA o NATUR EOE SZ ae 
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5.2 ”高 阶 画 数 


接受 函数 为 参数 ， 或 者 把 函数 作为 结果 返回 的 函数 是 高 阶 档 数 (higher-order 
function) ° map 画 数 就 是 一 例 ， 如 示例 5-2 所 示 。 此 外 ， 内 置 画 数 sorted 
ae 可 选 的 key 参数 用 于 提供 一 个 函数 ， 它 会 应 用 到 各 个 元 素 上 进行 排 
部 ， 参 见 2.7 节 。 


例如 ， 若 想 根据 单词 的 长 度 排 序 ， 只 需 把 len KAURA key 参数 ， 如 示例 
5-3 所 示 。 


示例 5-3 根据 单词 长 度 给 一 个 列表 排序 


>>> fruits = ['strawberry', 'fig', 'apple', 'cherry', 'raspberry', 
"banana' ] 

>>> sorted(fruits, key=len) 

['fig', 'apple', 'cherry', 'banana', 'raspberry', 'strawberry' ] 
>>> 


任何 单 参数 函数 都 能 作为 key 参数 的 值 。 例 如 ， 为 了 创建 押韵 词典 ， 可 以 把 
各 个 单词 反 过 来 拼写 ， 然 后 排序 。 注 意 ， 示 例 5-4 中 列表 里 的 单词 没有 变 ， 
我 们 只 是 把 反 向 拼写 当 作 排 序 条 件 ， 因 此 各 种 浆果 (berry) 都 排 在 一 起 。 


示例 5-4 根据 反 回 拼写 给 一 个 单词 列表 排序 


>>> def 人 

return word[::-1] 
>>> reverse('testing' ) 
"gnitset' 


>>> sorted(fruits, key=reverse) 
['banana', 'apple', 'fig', 'raspberry', 'strawberry', ‘'cherry' ] 
>>> 


在 函数 式 编程 范式 中 ， 最 为 人 熟知 的 高 阶 函 数 有 map、filter、reduce 
All apply ° apply 函数 在 Python 2.3 中 标记 为 过 时 ， 在 Python 3 中 移 除 
了 ， 因 为 不 再 需要 它 了 “。 如 果 想 使 用 不 定量 的 参数 调用 函数 ， 可 以 编写 
fn(*args，**keywords )， 不 用 再 编写 apply(fn，args， 
kwargs) ° 


map ` filter # reduce 这 三 个 HK MEROE ELEI, Nite ae ge F 
都 有 更 好 的 替代 品 。 详 情 参阅 下 一 


map、filter 和 reduce 的 现代 替代 品 


函数 式 语 言 通常 会 提供 map、filter 和 reduce 三 个 高 阶 画 数 (有 时 使 用 

不 同 的 名 称 ) 。 在 Python 3 中 ，map 和 filter 还 是 内 置 函 数 ， 但 是 由 于 引 

了 列表 推导 和 生成 器 表达 式 ， 它 们 变 得 没 那 么 重要 了 。 列 表 推 导 或 生成 器 

oe map 和 filter 两 个 函数 的 功能 ， 而 且 更 易于 阅读 ， 如 示例 5-5 
ZR œ 


示例 5-5 计算 阶乘 列表 : map 和 filter 与 列表 推导 比较 


> 


>>> list(map(fact, range(6))) @ 
[1, 1, 2, 6, 24, 120] 

>>> [fact(n) for n in range(6)] @ 

[1, 1, 2, 6, 24, 120] 

>>> list(map(factorial, filter(lambda n: n % 2, range(6)))) © 


[1, 6, 120] 

>>> [factorial(n) for n in range(6) if n% 2] ©@ 
[1, 6, 120] 

>>> 


@ 构建 0! 到 5! 的 一 个 阶乘 列表 。 
@ 使 用 列表 推导 执行 相同 的 操作 。 
@ 使 用 map 和 filter 计算 直到 5! 的 奇数 阶乘 列表 。 


@ 使 用 列表 推导 做 相同 的 工作 ， 换 掉 map 和 filter， 并 避免 了 使 用 
lambda 表达 式 。 


JE Python 3 "F, map 和 filter 返回 生成 器 (一 种 迭代 器 ) ， 因 此 现在 它们 
的 直接 替代 品 是 生成 器 表达 式 在 E Python 2 中 ， 这 两 个 函数 返回 列表 ， 因 此 
最 接近 的 炎 代 品 是 列表 推导 ) 


在 Python 2 中 ，reduce 是 内 置 函 数 ， 但 是 在 Python 3 中 放 到 functools 
模块 里 了 。 这 个 函数 最 常用 于 求 和 ， 自 2003 年 发 布 的 Python 2.3 开始 ， 最 好 
使 用 内 置 的 sum 函数 。 在 可 读 性 和 性 能 方面 ， 这 是 一 项 重大 改善 〈 见 示例 
5-6) 。 


示例 5-6 ”使 用 reduce 和 sum 计算 0~99 之 和 


>>> from functools import reduce @ 
>>> from operator import add @ 
>>> reduce(add, range(100)) © 


4950 

>>> sum(range(100)) ©@ 
4950 

>>> 


@ M Python 3.0 #2, reduce hHEN BNEY T ° 

@ 导入 add， 以 免 创建 一 个 专 求 两 数 之 和 的 函数 。 

日 计算 0~99 之 和 。 

@ 使 用 sum 做 相同 的 求 和 ; 无 需 导 入 或 创建 求 和 画 数 。 


sum 和 reduce 的 通用 思想 是 把 某 个 操作 连续 应 用 到 序列 的 元 素 上 ， 累 计 之 
前 的 结果 ， 把 一 系列 值 归 约 成 一 个 值 。 


all fl any 也 是 内 置 的 归 约 函数 。 
all(iterable) 


如 果 iterable 的 每 个 元 素 都 是 真 值 ， 返 回 True; all([]) 返回 
True ° 


any(iterable) 


只 要 iterable 中 有 元 素 是 真 值 ， 就 返回 True; any([]) 返回 
False ° 


10.6 TIARA WHH reduce KAN, KARMA PRB, AA KRE 
有 意义 的 上 下 文 。 本 书后 面 的 14.11 节 将 重点 讨论 可 迭代 对 象 ， 届 时 会 概述 
各 个 归 约 函数 。 


为 了 使 用 高 阶 丽 数 ， 有 时 创建 一 次 性 的 小 型 函数 更 便利 。 这 便 是 匿名 函数 存 
在 的 原因 ， 下 一 市 将 会 讨论 。 


5.3 Be Re 

lambda 关键 字 在 Python 表达 式 内 创建 匿名 画 数 。 

然而 ，Python 简单 的 句法 限制 了 lambda 画 数 的 定义 体 只 能 使 用 纯 表 达 式 。 
换 句 话说 ，lambda 画 数 的 定义 体 中 不 能 赋值 ， 也 不 能 使 用 while 和 try 


等 Python 语句 。 


在 参数 列表 中 最 适合 使 用 匿名 函数 。 例 如 ， 示 例 5-7 使 用 Lambda 表达 式 重 
写 了 示例 5-4 中 排序 押韵 单 词 的 示例 ， 这 样 就 省 掉 了 reverse K o 


示例 5-7 ”使 用 lambda 表达 式 反 转 拼写 ， 然 后 依 此 给 单词 列表 排序 


>>> fruits = ['strawberry', 'fig', ‘apple', 'cherry', 'raspberry', 
"banana' | 
>>> sorted(fruits, key=lambda word: word[::-1] 


['banana', 'apple', 'fig', '‘raspberry', 'strawberry', ‘'cherry' ] 
>>> 


BRT (FAB EUE A ENKAZ, Python 很 少 使 用 匿名 函数 。 由 于 句法 上 的 
限制 ， 非 平凡 的 Lambda 表达 式 要 么 难以 阅读 ， 要 么 无 法 写 出 。 


Lundh 提出 的 Lambda 表达 式 重 构 秘 发 


如 果 使 用 lambda 表达 式 导 人 致 一 段 代码 难以 理解 ，Fredrik Lundh 建议 像 
下 面 这 样 重 构 。 


(1) 编写 注释 ， 说 明 Lambda 表达 式 的 作用 。 

(2) 研究 一 会 儿 注释 ， 并 找 出 一 个 名 称 来 概括 注释 。 

(3) 把 lambda 表达 式 转换 成 def 语句 ， 使 用 那个 名 称 来 定义 函数 。 
(4) 删除 注释 。 

这 几 步 摘自 “Functional Programming HOWTO”， 这 是 一 篇 必 读 文章 。 


lambda 句法 只 是 语法 糖 ， 与 def 语句 一 样 ，Lambda 表达 式 会 创建 函数 对 
象 。 这 是 Python 中 几 种 可 调用 对 象 的 一 种 。 下 一 节 会 说 明 所 有 可 调用 对 象 。 


5.4 可 调用 对 象 
除了 用 户 定义 的 函数 ， 调 用 运算 符 ( 即 O) 还 可 以 应 用 到 其 他 对 象 上 。 如 
果 想 判断 对 象 能 否 调用 ， 可 以 使 用 内 置 的 callable( ) Kt > Python 数据 
模型 文档 列 出 了 7 种 可 调用 对 象 。 
用 户 定义 的 函数 

使 用 def 语句 或 lambda 表达 式 创建 。 
Ae ae 

使 用 C 语言 (CPython) 实现 的 函数 ， 如 len By time.strftime ° 
内 置 方法 

使 用 C 语言 实现 的 方法 ， 如 dict ,get。 
方法 

在 类 的 定义 体 中 定义 的 函数 。 
类 

调用 类 时 会 运行 类 的 __new__ 方法 创建 一 个 实例 ， 然 后 运行 
init _ 方法 ， 初 始 化 实例 ， 最 后 把 实例 返回 给 调用 方 。 因 为 Python 没 
有 new 运算 符 ， 所 以 调用 类 相当 于 调用 函数 。 (通常 ， 调 用 类 会 创建 那个 类 
的 实例 ， 不 过 覆盖 new _ 方法 的 话 ， 也 可 能 出 现 其 他 行为 。19.1.3 节 会 
见 到 一 个 例子 。) 
类 的 实例 


如 果 类 定义 了 __call 方法， 那么 它 的 实例 可 以 作为 函数 调用 。 参 见 
5.5 Ý ° 


生成 器 函数 
使 用 yield 关键 子 的 函数 或 方法 。 调 用 生成 器 函数 返回 的 是 生成 恬 对 


生成 器 画 数 在 很 多 方面 与 其 他 可 调用 对 和 象 不 同 ， 详 情 参 见 第 14 章 。 生 成 器 
函数 还 可 以 作为 协 程 ， 参 见 第 16 章 。 


™ 


Python 中 有 各 种 各 样 可 调用 的 类 型 ， 因 此 判断 对 象 能 否 调用 ， 最 安全 的 
方法 是 使 用 内 置 的 callable( ) WR: 


>>> abs, str, 13 
(<built-in function abs>, <class 'str'>, 13) 
>>> [callable(obj) for obj in (abs, str, 13)] 


[True, True, False] 


接 下 来 说 明 如 何 把 类 的 实例 变 成 可 调用 的 对 象 。 
55 用 户 定 义 的 可 调用 类 型 


不 仅 Python 本 函数 是 真正 的 对 象 ， 任 何 Python 对 象 都 可 以 表现 得 像 画 数 。 为 
此 ， 只 需 实现 实例 方法 _call e 


示例 5-8 实现 了 BingoCage 类 。 这 个 类 的 实例 使 用 任何 可 迭代 对 象 构建 ， 
而 且 会 在 内 部 存储 一 个 随机 顺序 排列 的 列表 。 调 用 实例 会 取出 一 个 元 素 。 


bingocall.py: 调用 Bingocage 实例 ， 从 打 乱 的 列表 中 取出 
一 个 元 条 


import random 
class BingoCage: 


def _ init__(self, items): 
self._items = list(items) @ 
random.shuffle(self._items) @ 


def pick(self): © 
try: 
return self._items.pop() 
except IndexError: 


raise LookupError('pick from empty BingoCage') ©@ 


def _call_(self): © 
return self.pick() 


@ init BSCE AOR, ARM PaA, be RH 
意外 副作用 。 


Ə shuffle 定 能 完成 工作 ， 因 为 self._items 是 列表 。 
@ 起 主要 作用 的 方法 。 

O WR self._items 为 空 ， 抛 出 异常 ， 并 设 定 错误 消息 。 
© bingo.pick( ) 的 快捷 方式 是 bingo()。 


下 面 是 示例 5-8 中 定义 的 类 的 简单 演示 。 注 意 ，bingo 实例 可 以 作为 函数 调 
用 ， 而 且 内 置 的 callable(, .,,) 范 数 判定 它 是 可 调用 的 对 象 : 


>>> bingo = BingoCage(range(3)) 
>>> bingo.pick() 

1 

>>> bingo() 

0 


>>> callable(bingo) 
True 


ZM call _ 方法 的 类 是 创建 函数 类 对 和 象 的 简便 方式 ， 此 时 必须 在 内 部 维 
护 一 个 状态 ， 让 它 在 调用 之 间 可 用 ， 例 如 Bingocage 中 的 剩余 元 素 。 装 饰 
器 就 是 这 样 。 装 饰 器 必须 是 函数 ， 而 且 有 时 要 在 多 次 调用 之 间 “ 记 住 ” 某 些 事 
[ 例如 备 忘 (memoization) ， 即 缓存 消耗 大 的 计算 结果 ， 供 后 面 使 用 ]。 


创建 保有 内 部 状态 的 画 数 ， 还 有 一 种 截然 不 同 的 方式 使 用 闭 包 。 闭 包 和 
装饰 器 在 第 7 章 讨论 。 


下 面 讨论 把 画 数 视 作对 象 处 理 的 另 一 方面 ， 运 行 时 内 省 。 
5.6 BAA 


除了 __doc _“， 画 数 对 象 还 有 很 多 属性 。 使 用 dir 函数 可 以 探知 
factorial BA Pulte: 


>>> dir(factorial) 


['__annotations__', '_call__', '__class__', '__closure__', '__code__', 

'_ defaults__', '_delattr__', '_dict__', '_dir__', '_doc_', 

—eq__, 

__format__', '_ge__', '__get__', '__getattribute__', '__globals__', 
gt__', '__hash__', '__init__', '__kwdefaults__', '_le vi dt 

__module__', '__name__', '__ne__', '__new__', '__qualname__', 


"” reduce_ ', 
1 I 1 1 1 Li 1 Li 1 Li 
reduce_ex ; repr ; setattr 7 sizeof i str j 


__subclasshook__'] 
>>> 


其 中 大 多 数 属性 是 Python 对 象 共 有 的 。 本 市 讨论 与 把 函数 视 作 对 象 相关 的 几 
TEE, FEA __dict__ ias 


SAP EMMA, KAEH dict _ 属 性 存储 赋予 它 的 用 户 属 


性 。 这 相当 于 一 种 基本 形式 的 注解 。 一 般 来 说 ， 为 函数 随意 赋予 属性 不 是 很 
fe LAN BOE, {A Django 框 织 这 么 做 了 。 参 见 “The Django admin site” 文 档 
中 对 short_description、boolean 和 allow _tags 属性 的 说 明 。 这 
篇 Django 文档 中 举 了 下 述 示例 ， 把 short_description 属性 赋予 一 个 方 
E E 


def upper_case_name(obj): 
return ("%s %S" % (obj.first_name, obj.last_name) ).upper() 
upper_case_name.short_description = 'Customer name' 


TAERA Bn aS A Ae SY OT RR RE o TP NR ESS 
合 的 差 集 便 能 得 到 函数 专 有 属性 列表 〈 见 示例 5-9) 。 


示例 5-9 列 出 常规 对 象 没有 而 函数 有 的 属性 


class C: pass # @ 

obj = C() #@ 

def func(): pass # ® 
sorted(set(dir(func)) - set(dir(obj))) # @ 


annotations__', '_call__', '__closure__', '_ code 
__ defaults _ 
get__', '_globals__', '__kwdefaults__', '__name__', '__qualname__'] 


@ 创建 一 个 空 的 用 户 定义 的 类 。 

O 创建 一 个 实例 。 

© 创建 一 个 空 函 数 。 

@ 计算 差 集 ， 然 后 排序 ， 得 到 类 的 实例 没有 而 函数 有 的 属性 列表 。 
表 5-1 对 示例 5-9 中 列 出 的 属性 做 了 简要 说 明 。 

表 5-1: 用 户 定义 的 画 数 的 属性 


名 称 型 
__annotations__ | dict 


l i i | . ae 


_ defaults __ 


method-wrapper | > 


ema 、 iH tet n 
民 关 键 字形 式 参 数 的 默认 值 
民 定 名 称 ， 如 Random.choice ( 参阅 PEP 3155) 


后 面 几 节 会 讨论 defaults 、_ code 和 annotations 属 
性 ，IDE 和 框架 使 用 它们 提取 关于 函数 签名 的 信息 。 但 是 ， 为 了 深入 了 解 这 


些 属性 ， 我 们 要 先 探讨 Python 为 声明 范 数 形 参 和 传 入 实 参 所 提供 的 强大 句 


法 。 


5.7 ”从 定位 参数 到 仅 限 关 键 字 参数 


Python 最 好 的 特性 之 一 是 提供 了 极为 灵活 的 参数 处 理 机 制 ， 而 且 Python 3 进 
一 步 提 供 了 仅 限 关键 字 参 数 (keyword-only argument) 。 与 之 密切 相关 的 
是 ， 调 用 函数 时 使 用 * 和 **“ 展 开 ? 可 迭代 对 象 ， 映 射 到 单个 参数 。 下 面 通 
过 示例 5-10 中 的 代码 展示 这 些 特性 ， 实 际 使 用 的 代码 在 示例 5-11 中 。 


示例 5-10 tag 函数 用 于 生成 HTML 标签， 使 用 名 为 cls 的 关键 字 参 
数 传 入 “class” 属 性 ， 这 是 一 种 变通 方法 ， 因 为 “ class” 是 Python 的 关键 字 


def tag(name, *content, cls=None, **attrs): 
Wu 生成 一 个 或 多 个 HTM L 标 签 " "n 
if cls is not None: 
attrs['class'] = cls 
if attrs: 
attr_str = ''.join(' %s="%s"' % (attr, value) 
for attr, value 
in sorted(attrs.items())) 


else: 
attr_str = 
if content: 
return '\n'.join('<%s%s>%s</%s>' % 
(name, attr_str, c, name) for c in content) 
else: 
return '<%s%s />' % (name, attr_str) 


tag WAH ALT SVR , WRA 5-11 所 示 。 
示例 5-11 tag 函数 〈 见 示例 5-10) 众多 调用 方式 中 的 几 种 


>>> tag('br') @ 

"<br />' 

>>> tag('p', 'hello') @ 

"<p>hello</p>' 

>>> print(tag('p', 'hello', '‘world')) 

<p>hello</p> 

<p>wor1d</p> 

>>> tag('p', 'hello', id=33) © 

"<p id="33">hello</p>' 

>>> print(tag('p', ‘hello', 'world', cls='sidebar')) @ 
<p class="sidebar">hello</p> 

<p class="sidebar">world</p> 

>>> tag(content='testing', name="img") © 

"<img content="testing" />' 

>>> my_tag = {'name': ‘img', 'title': 'Sunset Boulevard', 
Kia 'src': 'sunset.jpg', 'cls': 'framed'} 

>>> tag(**my_tag) © 

'<img class="framed" src="sunset.jpg" title="Sunset Boulevard" />' 


@ 传 入 单个 定位 参数 ， 生 成 一 个 指定 名 称 的 空 标签 。 


© 第 一 个 参数 后 面 的 任意 个 参数 会 被 *content 捕获 ， 存 入 一 个 元 组 。 


© tag 函数 签名 中 没有 明确 指定 名 称 的 关键 字 参 数 会 被 **attrs 捕获 ， 存 


O cls 参数 只 能 作为 关键 字 参 数 传 入 。 
@ 调用 tag 函数 时 ， 即 便 第 一 个 定位 参数 也 能 作为 关键 字 参 数 传 人 。 


@ 在 my_tag 前 面 加 上 **， 字 典 中 的 所 有 元 素 作 为 单个 参数 传 入 ， 同 名 键 
会 绑 定 到 对 应 的 具名 参数 上 ， 余 下 的 则 被 **attrs 捕获 。 


仅 限 关 键 字 BE Python 3 新 增 的 特性 。 在 示例 5-10 F, cls 参数 只 能 通 

过 关键 字 参 数 指定 ， 它 一 定 不 会 捕获 未 命名 的 定位 参数 。 和 定义 函数 时 若 想 指 
定 仅 限 关键 字 参 数 要 把 它们 放 到 前 面 有 * 的 参数 后 面 。 如 果 不 想 支持 数量 
不 定 的 定位 参数 ， 但 是 想 文 持 仅 限 关键 字 参 数 ， 在 签名 中 放 一 个 *， 如 下 所 
ZN: 


>>> def f(a, *, b): 
return a, b 


>>> f(1, b=2) 
(1, 2) 


注意 ， 仅 限 关 键 字 参数 不 一 定 要 有 默认 值 ， 可 以 像 上 例 中 b 那样 ， 强 制 必须 
传 入 实 参 。 


on 函数 参数 的 内 省 ， 以 一 个 Web 框架 中 的 示例 为 引子 ， 然 后 再 讨论 内 


5.8 ”获取 关于 参数 的 信息 


HTTP 微 框架 Bobo 中 有 个 使 用 函数 内 省 的 好 例子 。 示 例 5-12 是 对 Bobo 教 
程 中 “Hello world” 应 用 的 改编 ， 说 明了 内 省 怎么 使 用 。 


示例 5-12 Bobo 知道 hello 需要 person 参数 ， 并 且 从 HTTP 请 求 中 
获取 它 


import bobo 


@bobo.query('/') 


def hello(person): 
return 'Hello %s!' % person 


bobo. query 装饰 器 把 一 个 普通 的 函数 (如 hello) 与 框架 的 请 求 处 理 机 
制 集成 起 来 了 。 装 饰 器 会 在 第 7 章 讨 论 ， 这 不 是 这 个 示例 的 关键 。 这 里 的 关 
键 是 ，Bobo 会 内 省 hello 函数 ， 发 现 它 需 要 一 个 名 为 person 的 参数 ， 然 
后 从 请 求 中 获取 那个 名 称 对 应 的 参数 ， 将 其 传 给 hello 函数 ， 因 此 程序 员 
根本 不 用 触 碰 请 求 对 象 。 


安装 Bobo， 然 后 启动 开发 服务 器 ， 执 行 示例 5-12 中 的 脚本 (例如 ，bobo 
-f hello.py) 。 访 问 http://localhost:8080/ 看 到 的 消息 

是 “Missing form variable person”, HTTP 状态 码 是 403。 这 是 因为 ，Bobo 知 
道 调用 hello 函数 必须 传 入 person 参数 ， 但 是 在 请 求 中 找 不 到 同名 参 
数 。 示 例 5-13 在 shell 会 话 中 使 用 curl 展示 了 这 个 行为 。 


示例 5-13 ”如 果 请 求 中 缺少 函数 的 参数 ，Bobo 返回 403 forbidden Ki 
应 ; curl -i 的 作用 是 把 首部 转 储 到 标准 输出 


$ curl -i http://localhost :8080/ 
HTTP/1.0 403 Forbidden 

Date: Thu, 21 Aug 2014 21:39:44 GMT 
Server: WSGIServer/0.2 CPython/3.4.1 
Content-Type: text/html; charset=UTF-8 
Content-Length: 103 


<html> 

<head><title>Missing parameter</title></head> 
<body>Missing form variable person</body> 
</html> 


然而 ， 如 果 访 问 http://localhost:8080/?person=Jim， 响 应 会 变 成 
字符 串 'Hello Jim!'， 如 示例 5-14 所 示 。 


示例 5-14 传 入 所 需 的 person 参数 才能 得 到 OK 响应 


$ curl -i http://localhost:8080/?person=Jim 
HTTP/1.0 200 OK 

Date: Thu, 21 Aug 2014 21:42:32 GMT 

Server: WSGIServer/0.2 CPython/3.4.1 
Content-Type: text/html; charset=UTF-8 
Content-Length: 10 


Hello Jim! 


Bobo 4&4 AU HB is TBE? 它 又 是 怎么 知道 参数 有 没有 默认 
值 呢 ? 


函数 对 象 有 个 _ defaults _ 属性 ， 它 的 值 是 一 个 元 组 ， 里 面 保存 着 定位 
参数 和 关键 字 参 数 的 默认 值 。 RRA PRIA 
kwdefaults_ _ 属性 中 。 然 而 ， 参 数 的 名 称 在 __code _ 属 性 中 ， 它 的 
值 是 一 个 code 对 象 引 用 ， 自身 也 有 很 多 属性 


为 了 说 明 这 些 属性 的 用 途 ， 下 面 在 clip.py 模块 中 定义 clip 函数 ， 如 示例 5- 
15 所 示 ， 然 后 再 审查 它 。 


示例 5-15 ”在 指定 长 度 附近 截断 字符 串 的 函数 


def clip(text, max_len=80): 
"" "在 max_len 前 面 或 后 面 的 第 一 个 空格 处 截断 文 4 


end = None 
if len(text) > max_len: 
Space_before = text.rfind(' ', 0, max_len) 
if space_before >= 0: 
end = space_before 


else: 
space_after = text.rfind(' ', max_len) 
if space_after >= 0: 
end = space_after 
if end is None: # 没 找到 空格 
end = len(text) 
return text[:end].rstrip() 


示例 5-16 审查 示例 5-15 中 定义 的 clip HA, BA _ defaults__»> 
Ccode .co varnames 和 和 code ,co_argcount 的 值 。 


示例 5-16 提取 关于 函数 参数 的 信息 


>>> from clip import clip 

>>> clip.__defaults__ 

(80, ) 

>>> clip.__code__ # doctest: +ELLIPSIS 
<code object clip at Ox...> 

>>> clip.__code__.co_varnames 


('text', 'max_len', ‘end', 'space_before', 'space_after') 
>>> clip.__code__.co_argcount 
2 


可 以 看 出 ， 这 种 组 织 信 息 的 方式 并 不 是 最 便利 的 。 参 数 名 称 在 
__code__.co_varnames 中 ， 不 过 里 面 还 有 函数 定义 体 中 创建 的 局 部 变 
量 。 因 此 ， 参 数 名 称 是 前 N 个 字符 串 ，NN 的 值 由 
__code__.co_argcount 确定 。 顺 便 说 一 下 ， 这 里 不 包含 前 缀 为 * 或 ** 


的 变 长 参数 。 参 数 的 默认 值 只 能 通过 它们 在 defaults_ ”元 组 中 的 位 置 
确定 ， 因 此 要 从 后 向 前 扫描 才能 把 参数 和 默认 值 对 应 起 来 。 在 这 个 示例 中 
clip 函数 有 两 个 参数 ，text 和 max_len， 其 中 一 个 有 默认 值 ， 即 80, 
此 它 必然 属于 最 后 一 个 参数 ， 即 max_len。 这 有 违 常 理 。 
幸好 ， 我 们 有 更 好 的 方式 一 使 用 inspect 模块 。 
下 面 来 看 一 下 示例 5-17。 

示例 5-17 提取 函数 的 签名 ? 


?在 Python 3.5 中 ， 本 示例 的 sig 的 值 是 ， <Signature (text, max_len=80)>° ”编者 注 


>>> from clip import clip 

>>> from inspect import signature 

>>> Sig = signature(clip) 

>>> sig # doctest: +ELLIPSIS 

<inspect.Signature object at Ox...> 

>>> str(sig) 

"(text, max_len=80) ' 

>>> for name, param in sig.parameters.items(): 
print(param.kind, ':', name, '=', param.default) 


POSITIONAL_OR_KEYWORD : text = <class 'inspect._empty'> 
POSITIONAL_OR_KEYWORD : max_len = 80 


这 样 就 好 多 了 。inspect,signature 函数 返回 一 

inspect.Signature 对 象 ， 它 有 一 个 ars eA 

映射 ， 把 参数 名 和 inspect . Parameter 对 象 对 应 起 来 。 各 个 

Parameter 属性 也 有 上 自己 的 属性 ， 例 如 name `default 和 kind。 特 殊 

的 inepe t: _empty 值 表示 没有 默认 值 ， 考 虑 到 None 是 有 效 的 默认 值 
(也 经 常 这 么 做 )， 而 且 这 么 做 是 合理 的 。 


kind 属性 的 值 是 _ParameterKind 类 中 的 5 个 值 之 一 ， 列 举 如 下 。 


POSITIONAL_OR_KEYWORD 


可 以 通过 定位 参数 和 关键 字 参 数 传 入 的 形 参 (多数 Python 函数 的 参数 属 
于 此 类 ) 。 


VAR_POSITIONAL 


定位 参数 元 组 。 


VAR_KEYWORD 
关键 字 参 数字 典 。 
KEYWORD_ONLY 
仅 限 关键 字 参 数 (Python 3 新 增 ) 。 


POSITIONAL_ONLY 


仅 限定 位 参数 ， 目 前 ，Python 声明 画 数 的 句法 不 支持 ， 但 是 有 些 使 用 C 
语言 实现 且 不 接受 关键 字 参 数 的 函数 (如 divmod) 支持 。 


除了 name、default #1 kind, inspect.Parameter 对 象 还 有 一 个 
annotation (注解 ) 属性 ， 它 的 值 通 常 是 inspect ._empty， 但 是 可 能 
包含 Python 3 新 的 注解 句法 提供 的 函数 签名 元 数据 (注解 在 下 一 节 讨 论 ) e 
inspect .Signature 对 象 有 个 bind 方法 ， 它 可 以 把 任意 个 参数 绑 定 到 
签名 中 的 形 参 上 ， 所 用 的 规则 与 实 参 到 形 参 的 匹配 方式 一 样 。 框 架 可 以 使 用 
这 个 方法 在 真正 调用 函数 前 验证 参数 ， 如 示例 5-18 所 示 。 


示例 5-18 把 tag 函数 〈 见 示例 5-10) 的 签名 绑 定 到 一 个 参数 字典 上 3 


3 在 Python 3.5 中 ， 本 示例 的 bound_args 的 值 是 : <BoundArguments (name='img', 
cls='framed', attrs={'title': 'Sunset Boulevard', ‘'src': 
'sunset.jpg'})>° —4aa@it 


>>> import inspect 

>>> sig = inspect.signature(tag) @ 

>>> my_tag = {'name': ‘img', 'title': 'Sunset Boulevard', 

ate vd 'src': 'sunset.jpg', 'cls': 'framed'} 

>>> bound_args = sig.bind(**my_tag) @ 

>>> bound_args 

<inspect.BoundArguments object at 0x...> © 

>>> for name, value in bound_args.arguments.items(): @ 
print(name, '=', value) 

name = img 

cls = framed 

attrs = {'title': 'Sunset Boulevard', 'src': 'sunset.jpg'} 

>>> del my_tag['name'] © 

>>> bound_args = sig.bind(**my_tag) © 

Traceback (most recent call last): 


TypeError: 'name' parameter lacking default value 


@ 获取 tag WA 〈 见 示例 5-10) 的 签名 。 
@ 把 一 个 字典 参数 传 给 .bind() 方法 。 


© 得 到 一 个 inspect .BoundArguments 对 象 。 


@ i4{t bound_args.arguments (—^ OrderedDict 对 象 ) 中 的 元 
素 ， 显 示 参 数 的 名 称 和 值 。 


O 把 必须 指定 的 参数 name 从 my_tag 中 删除 。 


@ 调用 sig.bind(**my_ tag)， 扫 出 TypeError， 抱 怨 缺 少 name & 
这 个 示例 在 inspect 模块 的 帮助 下 ， 展 示 了 Python 数据 模型 把 实 参 绑 定 给 
函数 调用 中 的 形 参 的 机 制 ， 这 与 解释 器 使 用 的 机 制 相 同 。 


框架 和 IDE 等 工具 可 以 使 用 这 些 信息 验证 代码 。Python 3 的 另 一 个 特性 
数 进 了 这 些 信息 的 用 途 ， 参 见 下 一 节 。 


ul 


5.9 BAER 


Python 3 提供 了 一 种 句法 ， 用 于 为 函数 声明 中 的 参数 和 返回 值 附加 元 数据 。 
示例 5-19 是 示例 5-15 添加 注解 后 的 版 本 ， 二 者 唯一 的 区 别 在 第 一 行 。 


示例 5-19 有 注解 的 clip 函数 


def clip(text:str, max_len:'int > 0'=80) -> str: @ 
"在 max_len 前 面 或 后 面 的 第 一 个 空格 处 截断 文本 


end = None 
if len(text) > max_len: 
space_before = text.rfind(' ', 0, max_len) 
if space_before >= 0: 
end = space_before 


else: 
space_after = text.rfind(' ', max_len) 
if space_after >= 0: 
end = space_after 
if end is None: # 没 找到 空格 
end = len(text) 
return text[:end].rstrip() 


O 有 广 解 的 函数 声明 。 


函数 声明 中 的 各 个 参数 可 以 在 : 之 后 增加 注解 表达 式 。 如 果 参 数 有 默认 值 ， 
注解 放 在 参数 名 和 = 号 之 间 。 如 果 想 注解 返回 值 ， 在 ) 和 函数 声明 末尾 的 : 
之 间 添 加 -> 和 一 个 雪 达 式 。 那 个 表达 式 可 以 是 任何 类 型 。 注 解 中 最 闻 用 的 
类 型 是 类 (如 str 或 int) 和 字符 串 (如 'int > 0') 。 在 示例 5-19 

中 ，max_len 参数 的 注解 用 的 是 字符 串 。 


ener 只 是 存储 在 函数 的 __annotations_ _ 属性 (一 个 
字典 ) 中 : 


>>> from clip_annot import clip 
>>> clip.__annotations__ 


{'text': <class 'str'>, 'max_len': ‘int > 0', 'return': <class 'str'>} 


'return' 键 保存 的 是 返回 值 注解 ， 即 示例 5-19 eR eA DL -> 标记 的 


部 分 。 


Python 对 注解 所 做 的 唯一 的 事情 是 ， 把 它们 存储 在 函数 的 
annotations_ _ 属性 里 。 仪 此 而 已 ，Python 不 做 检查 、 不 做 强制 、 不 做 
验证 ， 什 么 操作 都 不 做 。 换 名 话说， 注解 对 Python 解释 器 没有 任何 意义 。 注 
解 只 是 元 数据 ， 可 以 供 IDE、 框 架 和 装饰 器 等 工具 使 用 。 写 作 本 书 时 ， 标 准 
库 中 还 没有 什么 会 用 到 这 些 元 数据 ， 唯 有 inspect.signature() KH 
道 怎么 提取 注解 ， 如 示例 5-20 所 示 。 


示例 5-20 从 函数 签名 中 提取 注解 


>>> from clip_annot import clip 
>>> from inspect import signature 
>>> Sig = signature(clip) 

>>> Sig.return_annotation 

<class 'str'> 


>>> for param in sig.parameters.values(): 
note = repr(param.annotation).ljust(13) 


eas print(note, ':', param.name, '=', param.default) 
<class 'str'> : text = <class 'inspect._empty'> 
‘int > 0' : max_len = 80 


signature 函数 返回 一 个 Signature 对 象 ， 它 有 一 个 
return_annotation 属性 和 一 个 parameters 属性 ， 后 者 是 一 个 字典 ， 
把 参数 名 映射 到 Parameter 对 象 上 。 每 个 Parameter 对 象 自 己 也 有 
annotation 属性 。 示 例 5-20 用 到 了 这 几 个 属性 。 


ERR, Bobo 等 框架 可 以 支持 注解 ， 并 进一步 目 动 处 理 请 求 。 例 如 ， 使 用 
price:float 注解 的 参数 可 以 目 动 把 查询 字符 串 转 换 成 函数 期 得 的 float 
类 型 ，quantity:'int > 9' 这 样 的 字符 种 注解 可 以 转换 成 对 参数 的 验 
证 。 


函数 注解 的 最 大 影响 或 许 不 是 让 Bobo 等 框架 自动 设置 ， 而 是 为 IDE 和 lint 
程序 等 工具 中 的 静态 类 型 检查 功能 提供 额外 的 类 型 信息 。 


本 章 余下 的 内 容 介绍 标准 库 中 为 函数 式 编程 提供 文 持 的 
常用 包 。 


5.10 “支持 函数 式 编 程 的 包 


虽然 Guido 明确 表明 ，Python 的 目标 不 是 变 成 函数 式 编 程 语 言 ， 但 是 得 益 于 
operator 和 functools 等 包 的 支持 ， 辑 数 式 编程 风格 也 可 以 信 手 措 来 。 
接 下 来 的 两 节 分 别 介绍 这 两 个 包 。 


5.10.1 operator 模块 


在 函数 式 编程 中 ， 经 营 需 要 把 算术 运算 符 当 作画 数 使 用 。 例 如 ， 不 使 用 递归 
计算 阶乘 。 求 和 可 以 使 用 sum 函数 ， 但 是 求 积 则 没有 这 样 的 函数 。 我 们 可 以 
使 用 reduce 函数 (5.2.1 节 是 这 么 做 的 ) ， 但 是 需要 一 个 函数 计算 序列 中 
两 个 元 素 之 积 。 示 例 5-21 展示 如 何 使 用 lambda 表达 式 解决 这 个 问题 。 


示例 5-21 使 用 reduce 函数 和 一 个 匿名 函数 计算 阶乘 


from functools import reduce 
def fact(n): 
return reduce(lambda a, b: a*b, range(1, n+1)) 


operator 模块 为 多 个 算术 运算 符 提供 了 对 应 的 函数 ， 从 而 避免 编写 
lambda a, b: a*b 这 种 平凡 的 匿名 函数 。 使 用 算术 运算 符 函 数 ， 可 以 把 
示例 5-21 改写 成 示例 5-22 那样 。 


示例 5-22 ”使 用 reduce 和 operator .mul 函数 计算 阶乘 


from functools import reduce 
from operator import mul 


def fact(n): 


return reduce(mul, range(1, n+1)) 


operator 模块 中 还 有 一 类 函数 ， 能 替代 从 序列 中 取出 元 素 或 读 取 对 象 属性 
的 lambda 表达 式 : 因此 ，itemgetter 和 attrgetter 其 实 会 自行 构建 
HRY © 
示例 5-23 展示 了 itemgetter 的 常见 用 途 : 根据 元 组 的 某 个 字段 给 元 组 列 
表 排序 。 在 这 个 示例 中 ， 按 照 国 家 代码 (第 2 个 字段 ) 的 顺序 打印 各 个 城市 
的 信息 。 其 实 ，itemgetter(1) 的 作用 与 lambda fields: 
fields[1] 一 样 : 创建 一 个 接受 集合 的 函数 ， 返 回 索 引 位 1 上 的 元 素 。 


2 5-23 ”演示 使 用 itemgetter 排序 一 个 元 组 列表 (数据 来 自 示 例 
2-8 


>>> metro_data = [ 
('Tokyo', 'JP', 36.933, (35.689722, 139.691667)), 
('Delhi NCR', 'IN', 21.935, (28.613889, 77.208889)), 


( 
( 
( 


"Mexico City', 'MX', 20.142, (19.433333, -99.133333)), 
"New York-Newark', 'US', 20.104, (40.808611, -74.020386)), 
'Sao Paulo', 'BR', 19.649, (-23.547778, -46.635833)), 
>>> 
>>> from operator import itemgetter 
>>> for city in sorted(metro_data, key=itemgetter(1)): 

print(city) 


('Sao Paulo', 'BR', 19.649, (-23.547778, -46.635833) ) 
('Delhi NCR', 'IN', 21.935, (28.613889, 77.208889) ) 
('Tokyo', 'JP', 36.933, (35.689722, 139.691667) ) 

('Mexico City', 'MX', 20.142, (19.433333, -99.133333) ) 
('New York-Newark', 'US', 20.104, (40.808611, -74.020386) ) 


如 果 把 多 个 参数 传 给 itemgetter， 它 构建 的 函数 会 返回 提取 的 值 构成 的 元 
组 : 


>>> cc_name = itemgetter(1, 0) 
>>> for city in metro_data: 
print(cc_name(city) ) 


, ‘'Tokyo') 


, ‘Delhi NCR') 

, ‘Mexico City') 
"New York-Newark' ) 
"Sao Paulo' ) 


itemgetter 使 用 [] 运算 符 ， 因 此 它 不 仅 文 持 序列 ， 还 支持 映射 和 任何 实 
现 _getitem _ 方法 的 类 。 


attrgetter 与 itemgetter 作用 类 似 ， 它 创建 的 范 数 根据 名 称 提取 对 象 
的 属性 。 如 果 把 多 个 属性 名 传 给 attrgetter， 它 也 会 返回 提取 的 值 构成 的 
元 组 。 此 外 ， 如 果 参 数 名 中 包含 ，〈 点 号 ) , attrgetter SIRA REX 
象 ， 获 取 指 定 的 属性 。 这 些 行为 如 示例 5-24 所 示 。 这 个 控制 台 会 话 不 短 ， 因 
这 样 才 能 展示 attrgetter 如 何 处 理 包 含 点 
号 的 属性 名 。 


示例 5-24 定义 一 个 namedtuple， 名 为 metro_data (与 示例 5-23 
中 的 列表 相同 ) ， 演 示 使 用 attrgetter 处 理 它 


>>> from collections import namedtuple 

>>> LatLong = namedtuple('LatLong', 'lat long') #@® 

>>> Metropolis = namedtuple('Metropolis', 'name cc pop coord') #@ 

>>> metro_areas = [Metropolis(name, cc, pop, LatLong(lat, long)) # © 

bese for name, cc, pop, (lat, long) in metro_data] 

>>> metro_areas[0] 

Metropolis(name='Tokyo', cc='JP', pop=36.933, 

coord=LatLong(lat=35.689722, 

long=139.691667 ) ) 

>>> metro_areas[0].coord.lat # @ 

35.689722 

>>> from operator import attrgetter 

>>> name_lat = attrgetter('name', 'coord.lat') # © 

>>> 

>>> for city in sorted(metro_areas, key=attrgetter('coord.lat')): # @ 
print(name_lat(city)) #@0 


('Sao Paulo', -23.547778) 
('Mexico City', 19.433333) 
('Delhi NCR', 28.613889) 
('Tokyo', 35.689722) 

('New York-Newark', 40.808611) 


@ 使 用 namedtuple 定义 LatLong ° 

@ 再 定义 Metropolis。 

© 使 用 Metropolis 实例 构建 metro_areas 列表 ; 注意 ， 我 们 使 用 般 套 
的 元 组 拆 包 提取 (lat，1long)， 然 后 使 用 它们 构建 LatLong， 作 为 
Metropolis 的 coord 属性 。 


@ 深 入 metro_areas[9]， 获 取 它 的 纬度 。 


O 定义 一 个 attrgetter， 获 取 name Bre coord. lat 属性 。 
@ 再 次 使 用 attrgetter， 按 照 纬 度 排序 城市 列表 。 
o 使 用 标号 日 中 定义 的 attrgetter， 只 显示 城市 名 和 纬度 。 


‘Pili operator 模块 中 定义 的 部 分 函数 《省略 了 以 _ 开 头 的 名 称 ， 因 为 
EAL ERMA) : 4 


4python 3.5 中 增加 了 imatmul 和 matmul。 编者 注 


>>> [name for name in dir(operator) if not name.startswith('_')] 
['abs', 'add', 'and_', ‘attrgetter', 'concat', 'contains', 
"countOf', 'delitem', ‘eq', '‘floordiv', 'ge', '‘getitem', 'gt', 
'iadd', ‘iand', 'iconcat', 'ifloordiv', 'ilshift', 'imod', ‘imul', 
"index', ‘'indexOf', ‘inv', 'invert', ‘ior', ‘ipow', ‘irshift', 


‘is ', 'is_not', ‘isub', 'itemgetter', ‘itruediv', ‘ixor', ‘le', 
"length_hint', ‘lshift', 'lt', 'methodcaller', 'mod', 'mul', 'ne', 
"neg', 'not_', ‘or_', 'pos', 'pow', 'rshift', '‘setitem', 'sub', 
"truediv', ‘truth', 'xor'] 


这 52 个 名 称 中 大 部 分 的 作用 不 言 而 喻 。 以 开头、 后面 是 男 一 个 运算 符 的 
那些 名 称 (如 ijadd、iand 等 ， 对 应 的 是 增 量 赋值 运算 符 (如 +=、&= 
等 ) 。 如 果 第 一 个 参数 是 可 变 的 ， 那 么 这 些 运 算 符 函数 会 就 地 修改 它 ， 否 
则 ， 作 用 与 不 带 i 的 函数 一 样 ， 直 接 返 回 运算 结果 。 


在 operator 模块 余下 的 函数 中 ， 我 们 最 后 介绍 一 下 methodcaller。 它 
的 作用 与 attrgetter 和 itemgetter 类 似 ， ES AT BHR 。 
methodcaller 创建 的 函数 会 在 对 象 上 调用 参数 指定 的 方法 ， 如 示例 5-25 
所 示 。 


示例 5-25 methodcaller 使 用 示例 : 第 二 个 测试 展示 绑 定 额外 参数 
的 方式 


>>> from operator import methodcaller 
>>> s = 'The time has come' 

>>> upcase = methodcaller('upper') 
>>> upcase(s) 


"THE TIME HAS COME' 

>>> hiphenate = methodcaller('replace', 
>>> hiphenate(s) 

"The-time-has-come' 


示例 5-25 中 的 第 一 个 测试 只 是 为 了 展示 methodcaller 的 用 法 ， 如 果 想 把 
str .upper 作为 函数 使 用 ， 只 需 在 str 类 上 调用 ， 并 传 入 一 个 字符 串 参 
数 ， 如 下 所 示 : 


>>> str.upper(s) 
"THE TIME HAS COME' 


示例 5-25 中 的 第 二 个 测试 表明 ，methodcaller 还 可 以 冻结 某 些 参数 ， 也 
就 是 部 分 应 用 (partial application) ， 这 与 functools.partial 函数 的 作 
用 类 似 。 详 情 参 见 下 一 节 。 


5.10.2 ”使 用 functools .partial 冻 结 参 数 


functools 模块 提供 了 一 系列 高 阶 画 数 ， 其 中 最 为 人 熟知 的 或 许 是 
reduce, RITE 5.2.1 市 已 经 介绍 过 。 余 下 的 函数 中 ， 最 有 用 的 是 
partial 及 其 变 体 ，partialmethod。 


functools .partial 这 个 高 阶 函 数 用 于 部 分 应 用 一 个 函数 。 部 分 应 用 是 
指 ， 基 于 一 个 函数 创建 一 个 新 的 可 调用 对 象 ， 把 原 函 数 的 某 些 参数 固定 。 使 
用 这 个 函数 可 以 把 接受 一 个 或 多 个 参数 的 函数 改编 成 需要 回调 的 API， 这 样 
参数 更 少 。 示 例 5-26 做 了 简单 的 演示 。 


示例 ~ 使 用 partial 把 一 个 两 参数 函数 改编 成 需要 单 参数 的 可 调 
用 对 


from operator import mul 

from functools import partial 
triple = partial(mul, 3) @ 
triple(7) @ 


list(map(triple, range(1, 10))) © 
6, 9, 12, 15, 18, 21, 24, 27] 


@ 使 用 mul 创建 triple 函数 ， 把 第 一 个 定位 参数 定 为 3。 
四 测试 triple HR ° 
四 在 map 中 使 用 triple; 在 这 个 示例 中 不 能 使 用 mul。 


使 用 4.6 节 介 绍 的 unicode .normalize 函数 再 举 个 例子 ， 这 个 示例 更 有 
实际 意义 。 如 果 处 理 多 国语 言 编 写 的 文本 ， 在 比较 或 排序 之 前 可 能 会 想 使 用 


unicode.normalize('NFC', s) 处 理 所 有 字符 串 Ss。 如 果 经 常 这 么 做 ， 
可 以 定义 一 个 nfe 函数 ， 如 示例 5-27 所 示 。 


示例 5-27 使 用 partial 构建 一 个 便利 的 Unicode 规范 化 函数 


import unicodedata, functools 
nfc = functools.partial(unicodedata.normalize, 'NFC') 
s1 'café' 
s2 'cafe\u0301' 
s1, s2 
('café', 'café') 
>>> s1 == s2 
False 
>>> nfc(s1) == nfc(s2) 
True 


partial 的 第 一 个 参数 是 一 个 可 调用 对 象 ， 后 面 跟着 任意 个 要 绑 定 的 定位 
参数 和 关键 字 参 数 。 


示例 5-28 在 示例 5-10 中 定义 的 tag 函数 上 使 用 partial， 冻 结 一 个 定位 
参数 和 一 个 关键 字 参 数 。 


示例 5-28 把 partial 应 用 到 示例 5-10 中 定义 的 tag HAVE 


Į 


>>> from tagger import tag 

>>> tag 

<function tag at 0x10206d1e0> @ 

>>> from functools import partial 

>>> picture = partial(tag, 'img', cls='pic-frame') @ 
>>> picture(src='wumpus.jpeg' ) 

‘<img class="pic-frame" src="wumpus.jpeg" />' © 

>>> picture 

functools.partial(<function tag at 0x10206d1e0>, 'img', cls='pic-frame' ) 
@ 

>>> picture.func © 

<function tag at 0x10206d1e0> 

>>> picture.args 

('img',) 

>>> picture.keywords 

{'cls': 'pic-frame'} 


@ 从 示例 5-10 中 导入 tag KA, ABER ID: 


@ 使 用 tag 创建 picture 函数 ， 把 第 一 个 定位 参数 固定 为 "Img' ， 把 
cls 关键 字 参 数 固 定 为 "pic-frame' 。 


© picture 的 行为 符合 预期 。 


@partial() 返回 一 个 functools .partial 对 象 。5 


5functools.py 的 源码 表明 ，functools .partial 类 是 使 用 C 语言 实现 的 ， 而 且 默 认 使 用 这 个 仿 
现 。 如 果 这 个 实现 不 可 用 ， 从 Python 3.4 #2, functools 模块 为 partial 提供 了 纯 Python 实现 。 


© functools.partial 对 象 提供 了 访问 原 函 数 和 固定 参数 的 属性 。 


functools.partialmethod 2X (Python 3.4 #4) 的 作用 与 partial 
一 样 ， 不 过 是 用 于 处 理 方法 的 。 


functools 模块 中 的 lru_cache 函数 令 人 印象 深刻 ， 它 会 做 备 忘 
(memoization) ， 这 是 一 种 自动 优化 措施 ， 它 会 存储 耗 时 的 函数 调用 结果 ， 
避免 重新 计算 。 第 7 章 将 会 介绍 这 个 函数 ， 还 将 讨论 装饰 器 ， 以 及 旨 在 用 作 

装饰 器 的 其 他 高 阶 画 数 : singledispatch M wraps ° 


5.11 本 章 小 结 


本 章 的 目标 是 探讨 Python 函数 的 一 等 本 性 。 这 和 意味 着 ， 我 们 可 以 把 函数 赋值 
给 变量 、 传 给 其 他 函数 、 存 储 在 数据 结构 中 ， 以 及 访问 函数 的 属性 ， 供 框架 
和 一 些 工 具 使 用 。 高 阶 函 数 是 函数 式 编程 的 重要 组 成 部 分 ， 即 使 现在 不 像 以 
前 那样 经 常 使 用 map、filter 和 reduce 函数 了 ， 但 是 还 有 列表 推导 (以 
及 类 似 的 结构 ， 如 生成 器 表达 式 ) 以 及 sum、all 和 any 等 内 置 的 归 约 函 
数 。Python 中 常用 的 高 阶 琅 数 有 内 置 印 数 sorted、min、max 和 
functools. partiale 


Python 有 7 种 可 调用 对 象 ， 从 Lambda 表达 式 创 建 的 简单 画 数 到 实现 

_ call 方法 的 类 实例 。 这 些 可 调用 对 象 都 能 通过 内 置 的 callable() 
函数 检测 。 每 一 种 可 调用 对 象 都 文 持 使 用 相同 的 丰富 句法 声明 形式 参数 ， 包 
括 仅 限 关键 字 参数 和 注解 一 一 二 者 都 是 Python 3 引入 的 新 特性 。 


Python 函数 及 其 注解 有 丰富 的 属性 ， 在 inspect 模块 的 帮助 下 ， 可 以 读 取 
它们 。 例 如 ，Signature,.bind 方法 使 用 有 灵活 的 规则 把 实 参 绑 定 到 形 参 
上 ， 这 与 Python 使 用 的 规则 一 样 。 


最 后 ， 本 章 介 绍 了 operator 模块 中 的 一 些 函 数 ， 以 及 
functools.partial 函数 ， 有 了 这 些 函 数 ， 函 数 式 编程 就 不 大 需 要 功能 
有 限 的 lambda 表达 式 了 。 


5.12 ”延伸 阅读 


接 下 来 的 两 草 继 生 探讨 使 用 落 数 对 象 编程 。 第 6 章 说 明 一 等 贸 数 如 何 简化 茶 
些 经 典 的 面向 对 象 设计 模式 ， 第 7 FRU has 〈 一 种 特别 的 高 阶 画 
数 ) MISC Tiras 的 闭 包 机 制 © 


《Python Cookbook (第 3 hig) Ich) (David Beazley 和 Brian K. Jones 
著 ) 的 第 7 章 是 对 本 章 和 第 7 章 很 好 的 补充 ， 那 一 章 基 本 上 使 用 不 同 的 方式 
探讨 了 相同 的 概念 。 


Python 语言 参考 手册 中 的 “3.2. The standard type hierarchy” 一 节 对 7 种 可 调用 
类 型 和 其 他 所 有 内 置 类 型 做 了 介绍 。 


本 章 讨论 的 Python 3 专 有 特性 有 各 目的 PEP: “PEP 3102 一 Keyword-Only 
Arguments” 和 “PEP 3107 一 Function Annotations”。 


若 想 进一步 了 解 目 前 对 注解 的 使 用 ，Stack Overflow 网 站 中 有 两 个 问答 值得 
= 个 E are good uses for Python3's‘Function Annotations?” , 
Raymond Hettinger 给 出 了 务实 的 回答 和 深入 的 见解 ， 男 一 个 是 “What good 
are Python function annotations?”， 某 个 回答 中 大 量 引 用 了 Guido van Rossum 


的 观点 。 
如 果 你 想 使 用 inspect 模块 , “PEP 362—Function Signature Object” 值 得 一 
读 ， 可 以 帮助 了 解 实现 细 市 。 


A. M. Kuchling 的 文章 “Python Functional Programming HOWTO” 对 Python Ei 
数 式 编程 做 了 很 好 的 介绍 。 不 过 ， 那 篇 文章 的 重点 是 使 用 迭代 器 和 生成 器 
这 是 第 14 章 的 话题 。 


fn.py (https://github.com/kachayev/fn.py) 是 为 Python 2 和 Python 3 HEK 
数 式 编程 支持 的 包 。 据 作者 Alexey Kachayev 介绍 ，fn .py 提供 了 
Python“ 所 缺少 的 函数 式 特 性 ”。 这 个 包 提供 的 @recur .tco iia Python 
中 的 无 限 递归 实现 了 尾 调 用 优化 。 此 外 ，fn.,py 还 提供 了 很 多 其 他 函数 、 数 
Daa KY AIRES © 


Stack Overflow 网 站 中 的 问题 “Python: Why is functools.partial necessary?” A^^ 
详实 (而 有 趣 ) 的 回答 ， 管 主 是 Alex Martelli ， 他 是 经 典 的 《Python 技术 手 
册 》 一 书 的 作者 。 


Jim Fulton 开发 的 Bobo 或 许 是 第 一 个 称 得 上 是 面 问 对 象 的 Web 框架。 如果 
你 对 这 个 框架 感 兴趣 ， 想 进一步 学 习 它 最 近 的 重 写 版 本 ， 


从 “Introduction” 入 手 。 在 Joel Spolsky 的 博客 中 ，Phillip J. Eby 在 评论 中 提 到 
了 Bobo 的 一 些 早期 历史 。 


杂谈 
关于 Bobo 


我 的 Python 编程 生涯 从 Bobo 开始 。1998 年 ， 我 在 自己 的 第 一 个 Python 
Web 项 目 中 使 用 了 Bobo。 当 时 我 在 寻找 编写 Web 应 用 的 面向 对 象 方 
式 ， 壬 斌 过 一 些 Perl 和 Java 框 架 之 后 ， 我 发 现 了 Bobo。 


1997 年 ，Bobo 开创 了 对 象 发 布 概念 ， 直 接 把 URL 映射 到 对 象 层次 结构 
E, 无需 配置 路 由 。 看 到 这 种 做 法 的 精妙 之 处 后 ， 我 被 Bobo 吸引 住 
T ° Bobo 还 能 通过 分 析 处 理 请 求 的 方法 或 函数 的 签名 来 自动 处 理 HTTP 


查询 。 


Bobo 由 Jim Fulton 创建 ， 他 被 人 称 为 “Zope A” (The Zope Pope) , 
因为 他 在 Zope 框架 的 开发 中 的 起 到 领衔 作用 。Zope 是 Plone CMS ` 
SchoolTool、ERP5 和 其 他 大 型 Python 项 目的 基础 。Jim 还 是 ZODB 

(Zope Object Database) 的 创建 者 ， 这 是 一 个 事务 型 对 象 数 据 库 ， 提 供 
了 ACID (“atomicity, consistency, isolation, and durability”， 原 子 性 、 一 
致 性 、 隔 离 性 和 了 耐久 性 ) ， 它 的 设计 目的 是 简化 Python 的 使 用 。 


后 来 ， 为 了 文 持 WSGI 和 现代 的 Python 版 本 (包括 Python 3) , Jim 从 

头 重 写 了 Bobo ° HERET, Bobo 使 用 six 库 做 函数 内 省 ， 这 是 为 了 

2 和 Python 3， 因 为 这 两 个 版 本 在 函数 对 象 和 相关 的 API 上 
了 修改 。 


Python ÆRA E A S 


2000 年 左右 ， 我 在 美国 做 培训 ，Guido van Rossum 到 访 了 教室 (他 不 是 
讲师 ) 。 在 课 后 的 问答 环 访 ， 有 人 问 他 Python 的 哪些 特性 是 从 其 他 语言 
a 。 他 答 道 : “Python 中 一 切 好 的 特性 都 是 从 其 他 语言 中 借鉴 


布朗 大 学 的 计算 机 科学 教授 Shriram Krishnamurthi 在 其 论文 “Teaching 
Programming Languages in a Post-Linnaean Age” 的 开头 这 样 写 道 : 


编程 语言 “范式 ”已 近 末 日 ， 它 们 是 旧时 代 的 遗留 物 ， 令 人 厌烦 。 降 


然 现 代 语 言 的 设计 者 对 范式 不 层 一 顾 ， 那 么 我 们 的 课程 为 什么 要 像 
奴隶 一 样 对 其 言 听 计 从 ? 


在 那 篇 论文 中 ， 下 面 这 一 段 点 名 所 到 了 Python: 


对 Python ` Ruby 或 Perl 这 些 语言 还 要 了 解 什 么 呢 ? 它们 鸭 设 计 者 
没有 耐心 去 精确 实现 林 蒜 层次 结构 ; 设计 者 按照 目 己 的 意愿 从 别处 
并 鉴 特 性 ， 创 建 出 完全 无 视 过 往 概 念 的 大 杂烩 。 


Krishnamurthi 指出 ， 不 要 试图 把 语言 归 为 某 一 类 ; 相反， 把 它们 视 作 特 
性 的 聚合 更 有 用 。 


为 Python 提供 一 等 函数 打开 了 函数 式 编程 的 大 门 ， 不 过 这 并 不 是 Guido 
的 目的 。 他 在 “Origins of Python's Functional Features” 一 文中 说 ，map、 
filter 和 reduce 的 最 初 目的 是 为 Python 增加 lambda 表达 式 。 这 
些 特性 都 由 Amrit Prem 贡献 ， 添 加 在 1994 年 发 布 的 Python 1.0 中 (& 
见 CPython 源码 中 的 Misc/HISTORY 文件 ) 。 


lambda ` map ` filter 和 reduce 首次 出 现在 Lisp 中 ， 这 是 最 早 的 
一 门 函 数 式 语言 。 然 而 ，Lisp 没有 限制 在 lambda 表达 式 中 能 做 什么 ， 
因为 Lisp 中 的 一 切 都 是 表达 式 。 Python 使 用 的 是 面向 语句 的 句法 ， 表 
达 式 中 不 能 包含 语句 ， 而 很 多 语言 结构 都 是 语句 ， 例 如 try/catch, 
我 编写 lambda 表达 式 时 最 想念 这 个 语句 。Python 为 了 提高 句法 的 可 读 
性 ， 必 须 付 出 这 样 的 代价 。6Lisp 有 很 多 优点 ， 可 读 性 一 定 不 是 其 中 之 


PUA, MATTER (Haskell) 中 借用 列表 推导 之 后 ， 
Python 对 map ` filter, LAR lambda 表达 式 的 需求 极 大 地 减少 了 。 


除了 匿名 函数 句法 上 的 限制 之 外 ， 影 响 函 数 式 编程 惯用 法 在 Python 中 广 
泛 使 用 的 最 大 障碍 是 缺少 尾 递归 消除 (tail-recursion elimination) ， 这 是 
一 项 优化 措施 ， 在 范 数 的 定义 体 “ 未 尾 ”* 递 归 调 用 ， 从 而 提高 计算 函数 的 
内 存 使 用 效率 。Guido 在 另 一 篇 博客 文章 (“Tail Recursion 

Elimination”) 中 解释 了 为 什么 这 种 优化 措施 不 适合 Python。 这 篇 文章 详 
细 讨 论 了 技术 论证 ， 不 过 前 三 个 也 是 最 重要 的 原因 与 易 用 性 有 天 。 
Te: ii ` 学习 和 教授 的 语言 并 非 偶然 ， 有 Guido 在 为 

OT FER © 


mE, Mier ha, eR AYE UA, Python 都 不 是 一 门 函 
数 式 语 言 。Python Reh esis BP es TEA e 


匿名 函数 的 问题 


除了 Python 独 有 的 句法 上 的 局 限 ， 在 任何 一 门 语言 中 ， 匿 名 函数 都 有 一 
个 严重 的 缺点 : 没有 名 称 。 


我 是 半 开 玩笑 的 。 男 数 有 名 称 ， 栈 跟踪 更 易于 阅读 。 匿 名 函数 是 一 种 便 
利 的 简 滞 方式 ， 人 们 乐于 使 用 它们 ,但 是 有 了 时 会 瑟 平 所 以 ， 尤 其 是 在 鼓 
励 深 层 和 能 套 匿名 函数 的 语言 和 环境 中 ， 如 JavaScript 和 Node.js。 E% K 
数 藤 套 的 层级 太 深 ， 不 利于 调试 和 处 理 错误 。Python 中 的 异步 编程 结构 
更 好 ， 或 许 就 是 因为 lambda 表达 式 有 局 限 。 我 保证 ， 后 面 会 进一步 讨 
论 异步 编程 ， 但 是 必须 等 到 第 18 草 。 顺 便 说 一 下 ，promise 对 象 、 期 物 

(future) 和 deferred 对 象 是 现代 异步 API 中 使 用 的 概念 。 把 它们 与 协 程 
sae Heme fe A “(ELV HOT” © 18.5 市 会 说 明 如 何不 用 回调 来 做 异 
LY FANE © 


6 此 外 ， 还 有 一 个 问题 : 把 代码 粘贴 到 Web 论坛 时 ， 缩 进 会 丢失 。 当 然 ， 这 是 题 外 话 。 


第 6 章 ”使 用 一 等 画 数 实现 设计 模式 


符合 模式 并 不 表示 做 得 对 。! 


— Ralph Johnson 
经 典 的 《设计 模式 : 可 复 用 面向 对 象 软件 的 基础 》 的 作者 之 一 


1 出 自 2014 年 11 月 15 日 Ralph Johnson 在 圣保罗 大 学 IME/CCSL 所 做 的 演讲 ，“Root Cause Analysis 
of Some Faults in Design Patterns” ° 


虽然 设计 模式 与 语言 无 关 ， 但 这 并 不 意味 着 每 一 个 模式 都 能 在 每 一 门 语言 中 
使 用 。1996 年 ，Peter Norvig 在 题 为 “Design Patterns in Dynamic 
Languages” 的 演讲 中 指出 ，Gamma 等 人 合 著 的 《设计 模式 ， 可 复 用 面向 对 象 
软件 的 基础 》 一 书 中 有 23 个 模式 ， 其 中 有 16 个 在 动态 语言 中 “不 见 了 ， 或 
者 简化 了 ” (参见 第 9 张 幻 灯 片 ) 。 他 讨论 的 是 Lisp 和 Dylan， 不 过 很 多 相 
天 的 动态 特性 在 Python 中 也 能 找到 。 


《设计 模式 : 可 复 用 面向 对 象 软件 的 基础 》 的 作者 在 引言 中 承认 ， 所 用 的 语 
言 决定 了 哪些 模式 可 用 : 


程序 设计 语言 的 选择 非常 重要 ， 它 将 影响 人 们 理解 问题 的 出 发 点 。 我 们 
的 设计 模式 采用 了 Smalltalk 和 C++ 层 的 语言 特性 ， 这 个 选择 实际 上 决 
定 了 哪些 机 制 可 以 方便 地 实现 ， 而 哪些 则 不 能 。 才 我 们 采用 过 程式 语 
言 ， 可 能 束 要 包括 诸如 “集成 ”封装 ”和 “多 态 ” 的 设计 模式 。 相 应 地 ， 一 
些 特殊 的 面向 对 象 语言 可 以 直接 文 持 我 们 的 某 些 模式 ， 例 如 CLOS 文 持 
多 方法 概念 ， 这 就 减少 了 访问 者 模式 的 必要 性 。? 


?2《 设 计 模 式 ， 可 复 用 面向 对 象 软件 的 基础 》 第 3 页 。 
具体 而 言 ，Norvig 建议 在 有 一 等 画 数 的 语言 中 重新 审视 “策略 ”命令 ”模板 方 
法 "和 “访问 者 ”模式 。 通 常 ， 我 们 可 以 把 这 些 模式 中 涉及 的 某 些 类 的 实例 替换 
成 简单 的 函数 ， 从 而 减少 样板 代码 。 本 章 将 使 用 函数 对 象 重 构 “策略 ”模式 ， 
还 将 讨论 一 种 更 简单 的 方式 ， 用 于 简化 “命令 ”模式 。 


6.1 RAD: 重 构 “策略 ”模式 


如 果 合 理 利用 作为 一 等 对 象 的 函数 ， 茶 些 设计 模式 可 以 简化 , “策略 ?模式 就 
定 其 中 一 个 很 好 的 例子 。 本 节 接 下 来 的 内 容 中 将 说 明 “ 策 略 ” 模 式 ， 并 使 用 


《设计 模式 : 可 复 用 面向 对 象 软件 的 基础 》 一 书 中 所 述 的 “经 典 ? 结 构 实 现 
它 。 如 果 你 熟悉 这 个 经 典 模式 ， 可 以 跳 到 6.1.2 节 ， 了 解 如 何 使 用 函数 重 构 
代码 来 有 效 减 少 代码 行 数 。 
6.1.1 经 典 的 “策略 ”模式 


图 6-1 中 的 UML 类 图 指出 了 “策略 ”模式 对 类 的 编排 。 


Promotion 
| 
discount 


LargeOrderPromo 
| [| | 
discount) | ldiscount) | 


aw, 


具体 策略 
图 6-1: 使 用 “策略 ”设计 模式 处 理 订单 折扣 的 UML 类 图 
《设计 模式 : 可 复 用 面向 对 象 软件 的 基础 》 一 书 是 这 样 概述 “策略 ”模式 的 : 


定义 一 系列 算法 ， 把 它们 一 一 封装 起 来 ， 并 且 使 它们 可 以 相互 替换 。 本 
模式 使 得 算法 可 以 独立 于 使 用 它 的 客户 而 变化 。 


电 商 领域 有 个 功能 明显 可 以 使 用 “策略 ”模式 ， 即 根据 客户 的 属性 或 订单 中 的 
商品 计算 折扣 。 


假如 一 个 网 店 制定 了 下 述 折扣 规则 。 
。 有 1000 或 以 上 积分 的 顾客 ， 每 个 订单 享 5% 折扣 。 
。 同一 订单 中 ， 单 个 商品 的 数量 达到 20 个 或 以 上 ， 享 10% 折扣 。 


BulkltemPromo 


。 订单 中 的 不 同 商品 达到 10 个 或 以 上 ， 享 7% 折扣 。 
简单 起 见 ， 我 们 假定 一 个 订单 一 次 只 能 享用 一 个 折扣 。 
“策略 ”模式 的 UML 类 图 见 图 6-1， 其 中 涉及 下 列 内 容 。 
EPX 


把 一 些 计 算 委 托 给 实现 不 同 算法 的 可 互 换 组 件 ， 它 提供 服务 。 在 这 个 电 
商 示 例 中 ， 上 下 文 是 0rder， 它 会 根据 不 同 的 算法 计算 促销 折扣 。 


策略 


实现 不 同 算法 的 组 件 共同 的 接口 。 在 这 个 示例 中 ， 名 为 Promotion 的 
抽象 类 扮演 这 个 角色 。 


具体 策略 


“策略 ”的 具体 子 类 。fidel1ityPromo、BulkPromo 和 
LargeOrderPromo 是 这 里 实现 的 三 个 具体 策略 。 


示例 6-1 实现 了 图 6-1 中 的 方案 。 按 照 《 设 计 模式 ， 可 复 用 面向 对 象 软件 的 
基础 》 一 书 的 说 明 ， 具 体 策略 由 上 下 文 类 的 客户 选择 。 在 这 个 示例 中 ， 实 例 
化 订单 之 前 ， 系 统 会 以 某 种 方式 选择 一 种 促销 折扣 策略 ， 然 后 把 它 传 给 
Order 构造 方法 。 具 体 怎 么 选择 策略 ， 不 在 这 个 模式 的 职责 范围 内 。 


示例 6-1 实现 Order 类 ， 支 持 插 入 式 折 扣 策略 


from abc import ABC, abstractmethod 
from collections import namedtuple 


Customer = namedtuple('Customer', 'name fidelity') 


class LineItem: 


def _ init__(self, product, quantity, price): 
self.product = product 
self.quantity = quantity 
self.price = price 


def total(self): 
return self.price * self.quantity 


class Order: # EFM 


def _ init__(self, customer, cart, promotion=None): 
self.customer = customer 
self.cart = list(cart) 
self.promotion = promotion 


def total(self): 
if not hasattr(self, '__total'): 
self.__ total = sum(item.total() for item in self.cart) 
return self. total 


def due(self): 
if self.promotion is None: 
discount = 0 
else: 
discount = self.promotion.discount(self) 
return self.total() - discount 


def _repr_ (self): 
fmt = '<Order total: {:.2f} due: {:.2f}>' 
return fmt.format(self.total(), self.due()) 


class Promotion(ABC) : # 策略 : 抽象 基 类 


@abstractmethod 
def discount(self, order): 


wi " 返 回 折扣 金额 ( 正 值 ) wn 


class FidelityPromo(Promotion): # 第 一 个 具体 策略 


""" 为 积分 为 1966 或 以 上 的 顾客 提供 5% 折 扣 """ 


def discount(self, order): 
return order.total() * .05 if order.customer.fidelity >= 1000 
else 0 


class BulkItemPromo(Promotion): # 第 二 个 具体 策略 
"" "单个 商品 为 20 个 或 以 上 时 提供 10% 折 扣 """ 


def discount(self, order): 
discount = 0 
for item in order.cart: 
if item.quantity >= 20: 
discount += item.total() * .1 
return discount 


class LargeOrderPromo(Promotion): # 第 三 个 具体 策略 
"" "订单 中 的 不 同 商品 达到 10 个 或 以 上 时 提供 7% 折 扣 """ 


def discount(self, order): 
distinct_items = {item.product for item in order.cart} 


if len(distinct_items) >= 10: 
return order.total() * .07 
return 0 


注意 ， 在 示例 6-1 F, RIE Promotion 定义 为 抽象 基 类 (Abstract Base 
Class, ABC) ， 这 人 么 做 是 为 了 使 用 @abstractmethod 装饰 器 ， 从 而 明确 
表明 所 用 的 模式 。 


A 在 Python 3.4 中 ， 声 明 抽 和 象 基 类 最 简单 的 方式 是 子 类 化 

abc .ABC。 我 在 示例 6-1 中 就 是 这 么 做 的 。 从 Python 3.0 到 Python 
3.3， 必 须 在 class 语句 中 使 用 metaclass= 关键 字 (例如 ，class 
Promotion(metaclass=ABCMeta):) 。 


2 6-2 是 一 些 doctest， 在 某 个 实现 了 上 壕 规则 的 模块 中 演示 和 验证 相关 操 


示例 6-2 使 用 不 同 促销 折扣 的 Order 类 示例 


>>> joe 
>>> ann 


Customer('John Doe', 0) @ 
Customer('Ann Smith', 1100) 
>>> cart = [LineItem('banana', 4, .5), @ 
eas LineItem('apple', 10, 1.5), 


Ema LineItem('watermellon', 5, 5.0)] 
>>> Order(joe, cart, FidelityPromo()) © 
<Order total: 42.00 due: 42.00> 

>>> Order(ann, cart, FidelityPromo()) @ 
<Order total: 42.00 due: 39.90> 

>>> banana_cart = [LineItem('banana', 30, .5), 
TE LineItem('apple', 10, 1.5)] 
>>> Order(joe, banana_cart, BulkItemPromo()) © 
<Order total: 30.00 due: 28.50> 

>>> long_order = [LineItem(str(item_code), 1, 1.0) @ 
TT for item_code in range(10)] 

>>> Order(joe, long_order, LargeOrderPromo()) ® 
<Order total: 10.00 due: 9.30> 

>>> Order(joe, cart, LargeOrderPromo()) 

<Order total: 42.00 due: 42.00> 


© 


@ 两 个 顾客 : joe 的 积分 是 0，ann 的 积分 是 1100 ° 
@ 有 三 个 商品 的 购物 车 。 


© fidelityPromo 没 给 joe 提供 折扣 。 


@ ann 得 到 了 5% 折扣 ， 因 为 她 的 积分 超过 1000。 

© banana_cart 中 有 30 把 香花 和 10 个 苹果 。 

@ BulkItemPromo 为 joe WANA Ae CER T 1.50 美元 。 

@ long_order 中 有 10 个 不 同 的 商品 ， 每 个 商品 的 价格 为 1.00 美元 。 
© LargerOrderPromo 为 joe 的 整个 订单 提供 了 7% 折扣 。 


示例 6-1 完全 可 用 ， 但 是 利用 Python 中 作为 对 象 的 男 数 ， 可 以 使 用 更 少 的 代 
码 实现 相同 的 功能 。 详 情 参 见 下 一 他 。 


6.1.2 ”使 用 函数 实现 “策略 ”模式 

在 示例 6-1 中 ， 每 个 具体 策略 都 是 一 个 类 ， 而 且 都 只 定义 了 一 个 方法 ， 即 
discount。 此 外 ， 策 略 实例 没有 状态 (没有 实例 属性 ) 。 你 可 能 会 说 ， 它 
们 看 起 来 像 是 普通 的 函数 一 一 的 确 如 此 。 示 例 6-3 是 对 示例 6-1 的 重 构 ， 把 
具体 策略 换 成 了 人 简单 的 函数 ， 而 且 去 挥 了 Promo 抽象 类 。 


示例 6-3 Order 类 和 使 用 函数 实现 的 折扣 策略 


from collections import namedtuple 


Customer = namedtuple('Customer', ‘name fidelity') 


class LineItem: 


def _ init__(self, product, quantity, price): 
self.product = product 
self.quantity = quantity 
self.price = price 


def total(self): 
return self.price * self.quantity 


class Order: # 上 下 文 


def _ init__(self, customer, cart, promotion=None): 
self.customer = customer 
self.cart = list(cart) 
self.promotion = promotion 


def total(self): 
if not hasattr(self, '__total'): 


self.__total = sum(item.total() for item in self.cart) 
return self. total 


def due(self): 
if self.promotion is None: 
discount = 0 
else: 
discount = self.promotion(self) @ 
return self.total() - discount 


def _repr_ (self): 
fmt = '<Order total: {:.2f} due: {:.2f}>' 
return fmt.format(self.total(), self.due()) 


def fidelity_promo(order): © 
" "为 积分 为 1000 或 以 上 的 顾客 提供 5% 折 扣 """ 


return order.total() * .05 if order.customer.fidelity >= 1000 else 0 


def bulk_item_promo(order): 
""" 单 个 商品 为 20 个 或 以 上 时 提供 16% 折 扣 """ 
discount = 0 
for item in order.cart: 
if item.quantity >= 20: 
discount += item.total() * .1 
return discount 


def large_order_promo(order): 
"" "订单 中 的 不 同 商品 达到 16 个 或 以 上 时 提供 7% 折 扣 """ 
distinct_items = {item.product for item in order.cart} 
if len(distinct_items) >= 10: 
return order.total() * .07 
return 0 


@ 计算 折扣 只 需 调 用 self.promotion() HX ° 
@ 没有 抽象 类 。 


日 各 个 策略 都 是 函数 。 


示例 6-3 中 的 代码 比 示例 6-1 少 12 行 。 不 仅 如 此 ， 新 的 Order 类 使 用 起 来 
更 简单 ， 如 示例 6-4 中 的 doctest 所 示 。 


示例 6-4 使 用 函数 实现 的 促销 折扣 的 Order 类 示例 


>>> joe 
>>> ann 


Customer('John Doe', 0) @ 
Customer('Ann Smith', 1100) 


>>> cart = [LineItem('banana', 4, .5), 

pai LineItem('apple', 10, 1.5), 
LineItem(' watermellon' 5, 5.0)] 

>>> s Order Gee, cart, fidelity_ Brome) © 

<Order total: 42.00 due: 42.00> 

>>> Order(ann, cart, fidelity_promo) 

<Order total: 42.00 due: 39.90> 

>>> banana_cart = [LineItem('banana', 30, .5), 

TN LineItem('apple', 10, 1.5)] 

>>> Order(joe, banana_cart, bulk_item_promo) ® 

<Order total: 30.00 due: 28.50> 

>>> long_order = [LineItem(str(item_code), 1, 1.0) 

alse for item_code in range(10) ] 

>>> Order(joe, long_order, large_order_promo) 

<Order total: 10.00 due: 9.30> 

>>> Order(joe, cart, large_order_promo) 

<Order total: 42.00 due: 42.00> 


@ 与 示例 6-1 一 样 的 测试 固件 。 
@ 为 了 把 折扣 策略 应 用 到 Order 实例 上 ， 只 需 把 促销 函数 作为 参数 传 入。 
O 这 个 测试 和 下 一 个 测试 使 用 不 同 的 促销 函数 。 


6-4 中 的 标注 : 没 必要 在 新 建 订单 时 实例 化 新 的 促销 对 象 ， 函 数 拿 


值得 注意 的 是 ，《 设 计 模 式 : 可 复 用 面向 对 象 软件 的 基础 》 一 书 的 作者 指 
出 : “策略 对 象 通常 是 很 好 的 享 元 (flyweight) 。”3” 那 本 书 的 另 一 部 分 对 “ 享 
元 ”下 了 定义 : “ 享 元 是 可 共享 的 对 象 ， 可 以 同时 在 多 个 上 下 文中 使 用 。 状 共 
享 是 推荐 的 做 法 ， 这 样 不 必 在 每 个 新 的 上 下 文 (这 里 是 order 实例 ) 中 使 
用 相同 的 策略 时 不 断 新 建 具体 策略 对 象 ， 从 而 减少 消耗 。 因此 ， 为 了 避 

人 免 “策略 ”模式 的 一 个 缺点 〈 运 行 时 消耗 ) ，《 设 计 模 式 : 可 复 用 面向 对 象 软 
的 作者 建议 再 使 用 另 一 个 模式 。 但 此 时 ， 代 码 行 数 和 维护 成 本 会 


3《 设 计 模 式 ， 可 复 用 面向 


> 


j 象 软件 的 基础 》 第 214 页 。 


4《 设 计 模式 : 可 复 用 面向 对 象 软件 的 基础 》 第 129 e 


在 复杂 的 情况 下 ， 需 要 具体 策略 维护 内 部 状态 时 ， 可 能 需要 把 “策略 ”和 “ 吝 
元 "模式 结合 起 来 。 但 是 ， 具 体 策略 股 没有 内 部 状态 内 十 处 理 上 不 区 中 
的 数据 。 此 时 ， 一 定 要 使 用 普通 的 函数 ， 别 去 编写 只 有 一 个 方法 的 类 ， 再 去 
实现 另 一 个 类 声明 的 单 函数 接口 。 函 数 比 用 户 定 义 的 类 的 实例 轻 量 ， 而 且 无 


需 使 用 “ 享 元 ”模式 ， 因 为 各 个 策略 函数 在 Python 编译 模块 时 只 会 创建 一 次 。 
普通 的 函数 也 是 “可 共享 的 对 象 ， 可 以 同时 在 多 个 上 下 文中 使 用 ”。 


至 此 ， 我 们 使 用 函数 实现 了 “策略 ”模式 ， 由 此 也 出 现 了 其 他 可 能 性 。 假 设 我 
们 想 创建 一 个 “元 策略 "， 让 它 为 指定 的 订单 选择 最 佳 折 扣 。 接 下 来 的 几 市 会 
接着 重 构 ， 利 用 函数 和 模块 是 对 象 ， 使 用 不 同 的 方式 实现 这 个 需求 。 

6.1.3 ”选择 最 佳 策 略 : 简单 的 方式 


我 们 继续 使 用 示例 6-4 中 的 顾客 和 购物 车 ， 在 此 基础 上 添加 3 个 测试 ， 如 示 
例 6-5 所 示 。 


示例 6-5 best_promo 函数 计算 所 有 折扣 ， 并 返回 额度 最 大 的 


>>> Order(joe, long_order, best_promo) @ 
<Order total: 10.00 due: 9.30> 
>>> Order(joe, banana_cart, best_promo) @ 


<Order total: 30.00 due: 28.50> 
>>> Order(ann, cart, best_promo) © 
<Order total: 42.00 due: 39.90> 


@ best_promo 为 顾客 joe 选择 larger_order_promo ° 
@ 订购 大 量 香 礁 时 ，joe 使 用 bulk_item_promo 提供 的 折扣 。 


在 一 个 简单 的 购物 车 中 ，best_promo 为 忠实 顾客 ann 提供 
fidelity_promo 优惠 的 折扣 。 


best_promo 函数 的 实现 特别 简单 ， 如 示例 6-6 所 示 。 
示例 6-6 best_promo 迭代 一 个 函数 列表 ， 并 找 出 折扣 额度 最 大 的 


promos = [fidelity_promo, bulk_item_promo, large_order_promo] @ 


def best_promo(order): @ 
""" 选 择 可 用 的 最 佳 折扣 


return max(promo(order) for promo in promos) © 


@ promos 列 出 以 函数 实现 的 各 个 策略 。 


@ 与 其 他 几 个 *_promo 函数 一 样 ，best_promo 函数 的 参数 是 一 个 
Order 实例 。 


© 使 用 生成 器 表达 式 把 order 传 给 promos 列表 中 的 各 个 函数 ， 返 回 计 算 
出 的 最 大 折扣 额度 。 


示例 6-6 Tai BARS, promos 是 函数 列表 。 习 惯 函数 是 一 等 对 象 后 ， 自 然而 
然 就 会 构建 那 种 数据 结构 存储 函数 。 


虽然 示例 6-6 可 用 ， 而 且 易 于 阅读 ， 但 是 有 些 重 复 可 能 会 导致 不 易 察 觉 的 缺 
陷 : 郑 想 添加 新 的 促销 人 梨 略 ， 要 定义 相应 的 函数 ， 还 要 记得 把 它 添加 到 
promos 列表 中 ; 否则 ， 当 新 促销 函数 显 式 地 作为 参数 传 给 0rder IT, € 
是 可 用 的 ， 但 是 best_promo 不 会 考虑 它 。 

继续 往 下 读 ， 了 解 这 个 问题 的 几 种 解决 方案 。 

6.1.4 ” 找 出 模块 中 的 全 部 策略 


在 Python 中 ， 模 块 也 是 一 等 对 象 ， 而 且 标 准 库 提 供 了 几 个 处 理 模 块 的 函数 。 
Python 文档 是 这 样 说 明 内 置 函 数 globals 的 。 


globals() 


返回 一 个 字典 ， 表 示 当 前 的 全 局 符号 表 。 这 个 符号 表 始 终 针 对 当前 模块 
(对 函数 或 方法 来 说 ， 是 指定 义 它们 的 模块 ， 而 不 是 调用 它们 的 模块 ; 。 


示例 6-7 使 用 globals 函数 帮助 best_promo 自动 找到 其 他 可 用 的 
* promo 函数 ， 过 程 有 点 曲折 。 


示例 6-7 内 省 模块 的 全 局 命名 空间 ， 构 建 promos 列表 


promos = [globals()[name] for name in globals() @ 
if name.endswith('_promo') @ 
and name != 'best_promo' ] © 


def best_promo(order): 


"20 选择 可 用 的 最 佳 折扣 


return max(promo(order) for promo in promos) @ 


@ 54K globals() 返回 字典 中 的 各 个 name。 


@ 只 选择 以 _promo 结尾 的 名 称 。 
© JEt best_promo 自身 ， 防 止 无 限 递归 。 
@best_promo 内 部 的 代码 没有 变化 。 


收集 所 有 可 用 促销 的 另 一 种 方法 是 ， 在 一 个 单独 的 模块 中 保存 所 有 策略 范 
数 ， 把 best_promo 排除 在 外 。 


在 示例 6-8 中 ， 最 大 的 变化 是 内 省 名 为 promotions 的 独立 模块 ， 构 建筑 略 
函数 列表 。 注 意 ， 示 例 6-8 要 导入 promotions 模块 ， 以 及 提供 高 阶 内 省 画 
数 的 inspect 模块 (简单 起 见 ， 这 里 没有 给 出 导入 语句 ， 因 为 导入 语句 一 
般 放 在 文件 顶部 )。 


示例 6-8 ”内 省 单独 的 promotions 模块 ， 构 建 promos 列表 


promos = [func for name, func in 
inspect.getmembers(promotions, inspect.isfunction) | 


def best_promo(order): 


mn "选择 可 用 的 最 佳 折扣 


return max(promo(order) for promo in promos) 


inspect.getmembers HAVA TREOTR (这 里 是 promotions 模块 ) 
的 属性 ， 第 二 个 参数 是 可 选 的 判断 条 件 〈 一 个 布尔 值 函 数 ) 。 我 们 使 用 的 是 
inspect.isfunction， 只 获取 模块 中 的 函数 。 


不 管 怎么 命名 策略 函数 ， 示 例 6-8 都 可 用 ; 唯一 重要 的 是 ，promotions 模 
块 只 能 包含 计算 订单 折扣 的 函数 。 当 然 ， 这 是 对 代码 的 隐 性 假设 。 如 果 有 人 
Æ promotions 模块 中 使 用 不 同 的 签名 定义 函数 ， 那 么 best_promo 函数 
尝试 将 其 应 用 到 订单 上 时 会 出 错 。 


我 们 可 以 添加 更 为 严格 的 测试 ， 审 查 传 给 实例 的 参数 ， 进 一 步 过 滤 画 数 。 示 
例 6-8 的 目的 不 是 提供 完善 的 方案 ， 而 是 强调 模块 内 省 的 一 种 用 途 。 

动态 收集 促销 折扣 函数 更 为 显 式 的 一 种 方案 是 使 用 简单 的 狠 饰 器 。 第 7 章 讨 
论 函 数 装饰 句 时 会 使 用 其 他 方式 实现 这 个 电 商 “策略 ?模式 示例 。 

下 一 广 讨 论 “命令 ”模式 。 这 个 设计 模式 也 常 使 用 单方 法 类 实现 ， 同 样 也 可 以 
换 成 普通 的 函数 。 


6.2 “命令 ”模式 


“命令 ”设计 模式 也 可 以 通过 把 函数 作为 参数 传递 而 简化 。 这 一 模式 对 类 的 编 
排 如 图 6-2 所 示 。 


| Command | 

aaa 

execute) | 
/\ 


PasteCommand 


OpenCommand 
| | 
|execute() | 


execute 


MacroCommand 
O y 
lexecute() 


具体 命令 


= 
Linsert_text() | 


图 6-2: 菜单 驱动 的 文本 编辑 器 的 UML 类 图 ， 使 用 “命令 ”设计 模式 实现 。 
各 个 命令 可 以 有 不 同 的 接收 者 (实现 操作 的 对 象 ) 。 对 PasteCommand 来 
说 ， 接 收 者 是 Document。 对 OpenCommand 来 说 ， 接 收 者 是 应 用 程序 


“命令 ?模式 的 目的 是 解 耦 调用 操作 的 对 象 (调用 者 ) 和 提供 实现 的 对 象 GR 
收 者 ) 。 在 《设计 模式 : 可 复 用 面向 对 象 软件 的 基础 》 所 举 的 示例 中 ， 调 用 
者 是 图 形 应 用 程序 中 的 菜单 项 ， 而 接收 者 是 被 编辑 的 文档 或 应 用 程序 自身 。 


这 个 模式 的 做 法 是 ， 在 二 者 之 间 放 一 个 Command WR, ike LM AAT 
方法 (execute) 的 接口 ， 调 用 接收 者 中 的 方法 执行 所 需 的 操作 。 这 样 ， 调 
用 者 无 需 了 解 接 收 者 的 接口 ， 而 且 不 同 的 接收 者 可 以 适应 不 同 的 Command 
子 类 。 调 用 者 有 一 个 具体 的 命令 ， 通 过 调用 execute 方法 执行 。 注 意 ， 
6-2 中 的 MacroCommand 可 能 保存 一 系列 命令 ， 它 的 execute( ) 方法 会 在 
各 个 命令 上 调用 相同 的 方法 。 


Gamma 等 人 说 过 : “命令 模式 是 回调 机 制 的 面向 对 象 蔡 代 品 。 ”问题 是 ， 我 们 
需要 回调 机 制 的 面向 对 象 替代 品 吗 ? 有 时 确实 需要 ， 但 并 非 始终 需要 。 


我 们 可 以 不 为 调用 者 提供 一 个 Command 实例 ， 而 是 给 它 一 个 函数 。 此 时 ， 
调用 者 不 用 调用 command .execute()， 直 接 调用 command() 即 可 。 
MacroCommand 可 以 实现 成 定义 了 call 方法 的 类 。 这 样 ， 
MacroCommand 的 实例 就 是 可 调用 对 象 ， 各 目 维护 着 一 个 函数 列表 ， 供 以 
后 调用 ， 如 示例 6-9 所 示 。 


示例 6-9 MacroCommand 的 各 个 实例 都 在 内 部 存储 着 命令 列表 


class MacroCommand: 
' 个 执行 组 命令 的 命令 " wi 


def _init_ (self, commands): 
self.commands = list(commands) # @ 


def _ call (self): 
for command in self.commands: # @ 
command ( ) 


@ 使 用 commands 参数 构建 一 个 列表 ， 这 样 能 确保 参数 是 可 迭代 对 象 ， 还 
能 在 各 个 MacroCommand 实例 中 保存 各 个 命令 引用 的 副本 。 


@ 调用 MacroCommand 实例 时 ，selLf.commands 中 的 各 个 命令 依 序 执 
行 。 


复杂 的 “命令 ”模式 〈 如 支持 撤销 操作 ) 可 能 需要 更 多 ， 而 不 仅 是 简单 的 回调 
函数 。 即 便 如 此 ， 也 可 以 考虑 使 用 Python 提供 的 几 个 替代 品 。 


。 像 示 例 6-9 中 MacroCommand 那样 的 可 调用 实例 ， 可 以 保存 任何 所 需 
的 状态 ， 而 且 除 了 call 之 外 还 可 以 提供 其 他 方法 。 


。 可 以 使 用 闭 包 在 调用 之 间 保 存 函 数 的 内 部 状态 。 
使 用 一 等 画 数 对 “命令 ”模式 的 重新 审视 到 此 结束 。 站 在 一 定 高 度 上 看 ， 这 里 
采用 的 方式 与 “策略 ”模式 所 用 的 类 似 : 把 实现 单方 法 接口 的 类 的 实例 兰 换 成 
B 毕竟 ， 每 个 Python 可 调用 对 象 都 实现 了 单方 法 接口 ， 这 个 方法 
ia call __ 


6.3 “本章 小 结 


经 典 的 《设计 模式 : 可 复 用 面向 对 象 软件 的 基础 》 一 书 出 版 几 年 后 ，Peter 
Norvig 指出 , “在 Lisp 或 Dylan 中 ，23 个 设计 模式 中 有 16 个 的 实现 方式 比 


C++ 中 更 简单 ， 而 且 能 保持 同等 质量 ， 至 少 各 个 模式 的 某 些 用 途 如 

Ik” (Norvig 的 “Design Patterns in Dynamic Languages” 演 讲 ， 第 9 张 幻 灯 

Fr) ° Python 有 些 动态 特性 与 Lisp 和 Dylan 一 样 ， 尤 其 是 本 书 这 一 部 分 着 重 
讨论 的 一 等 畏 数 。 


本 章 开 头 引 用 的 那 句 话 是 Ralph Johnson 在 纪念 《设计 模式 : 可 复 用 面向 对 
象 软件 的 基础 》 原 书 出 版 20 周年 的 活动 上 所 说 的 ， 他 指出 这 本 书 的 缺点 之 
一 是 : “过 多 强调 设计 模式 的 结果 ， 而 没有 细 说 过 程 。” 本章 从 “策略 ”模式 
开始 ， 使 用 一 等 函数 简化 了 实现 方式 。 


5 与 本 章 开头 引用 的 那 句 话 同 出 一 处 ，2014 Æ 11 月 15 日 Johnson Æ IME-USP 所 做 的 演讲 ，“Root 


Cause Analysis of Some Faults in Design Patterns” ° 


很 多 情况 下 ， 在 Python 中 使 用 函数 或 可 调用 对 象 实 现 回调 更 自然 ， 这 比 模仿 
Gamma ` Helm ` Johnson 和 Vlissides 在 书 中 所 述 的 “策略 ?或 “命令 ”模式 要 

好 。 本 章 对 “策略 ”模式 的 重 构 和 对 “命令 ”模式 的 讨论 是 为 了 通过 示例 说 明 一 
个 更 为 常见 的 做 法 有 时 ， 设 计 模 式 或 API 要 求 组 件 实现 单方 法 接口 ， 而 那 
个 方法 的 名 称 很 宽 沁 ， 例 如 “execute”run” 或 “doIt”。 在 Python 中 ， 这 些 模式 
API 通常 可 以 使 用 一 等 函数 或 其 他 可 调用 的 对 象 实现 ， 从 而 减少 样板 代 


Peter Norvig 那 次 设计 模式 演讲 想 表 达 的 观点 是 , “命令 ?和 “策略 ”模式 (A 
及 “模板 方法 "和 “访问 者 ”模式 ) 可 以 使 用 一 等 画 数 实现 ， 这 样 更 人 简单， 其 
至 “不 见 了 ”， 至 少 对 这 些 模式 的 某 些 用 途 来 说 是 如 此 。 


6.4 ”延伸 阅读 


结束 对 “策略 ”模式 的 讨论 时 ， 我 建议 使 用 函数 装饰 器 改进 示例 6-8。 本 章 还 
多 次 提 到 了 闭 包 。 装 饰 器 和 闭 包 是 第 7 章 的 话题 。 那 一 革 首 先 重 构 本 章 的 电 
商 示 例 ， 使 用 装饰 器 注册 可 用 的 促销 方式 。 


《Python Cookbook ($ 3 版 ) 中 文 版 》 (David Beazley 和 Brian K. Jones 
著 ) 的 “8.21 实现 访问 者 模式 ”使 用 优雅 的 方式 实现 了 “访问 者 ”模式 ， 其 中 的 
NodeVisitor 类 把 方法 当 作 一 等 对 象 处 理 。 


在 设计 模式 方面 ，Python 程序 员 的 阅读 选择 没有 其 他 语言 多 。 
据 我 所 知 ， 截 至 2014 年 6 月 ，Learning Python Design Patterns (Gennadiy 


Zlobin 著 ，Packt 出 版 社 ) 是 唯一 一 本 专门 针对 Python 设计 模式 的 书 。 不 过 
Zlobin 这 本 书 特 别 薄 (100 页 ) ， 只 涵盖 了 23 种 设计 模式 中 的 8 种 。 


《Python 高 级 编程 》 (Tarek Ziadé 著 ) 是 市 面 上 最 好 的 Python 中 级 书 ， 第 
14 章 * 有 用 的 设计 模式 ?从 Python 程序 员 的 视角 介绍 了 7 种 经 典 模式 。 


Alex Martelli 做 过 几 次 关于 Python 设计 模式 的 演讲 。 他 在 EuroPython 2011 
上 的 演讲 有 视频 ， 他 的 个 人 网 站 中 有 一 些 幻灯 片 。 这 些 年 ， 我 找到 了 不 同 的 
幻灯 片 和 视频 ， 长 短 不 一 ， 因 此 要 仔细 搜索 他 的 名 字 和 “Python Design 


Patterns” 这 些 词 。 


2008 年 左右 ，《Java 编程 思想 》 的 作者 Bruce Eckel 开始 写 一 本 题 为 Python 
3 Patterns, Recipes and Idioms 的 书 。 这 本 书 有 很 多 贡献 者 ， 领 次 人 是 Eckel, 

但 是 六 年 过 去 了 ,依然 没有 写 完 ， 看 样子 是 流产 了 《写作 本 书 时 ， 仓 库 的 最 
后 一 次 改动 是 在 两 年 前 5) 


6 至 本 书 中 文 版 出 版 时 ， 仓 库 的 最 后 一 次 改动 是 在 2015 年 8 月 4 日 。 编者 注 


用 Java 写 的 设计 模式 书 很 多 ， 其 中 我 最 喜欢 的 一 本 是 《Head First 设计 模 

式 》 (Eric Freeman ` Bert Bates ` Kathy Sierra 和 Elisabeth Robson 车) 。 这 

本 书 讲解 了 23 个 经 典 模式 中 的 16 个 。 如 果 你 喜欢 Head First 系列 丛书 的 古 

而 且 想 了 解 这 个 主题 ， 你 会 喜欢 这 本 书 的 。 不 过 ， 它 是 围绕 Java 讲 
RA o 


如 果 想 换个 新 鲜 的 角度 ， 从 文 持 鸭子 类 型 和 一 等 函数 的 动态 语言 入 手 ， 

«Ruby 设计 模式 》 (Russ Olsen #) 一 书 有 很 多 见解 也 适用 于 Python ° RA 
- “n 在 句法 上 有 很 多 区 别 ， 但 是 二 者 在 语义 方面 很 接近 ， 比 Java 
BY C++ 接近 。 


在 “Design Patterns in Dynamic Languages” 这 一 演讲 中 ，Peter Norvig 展示 了 如 
何 使 用 一 等 函数 (和 其 他 动态 特性 ) 简化 几 个 经 典 的 设计 模式 ， 或 者 根本 不 
需要 使 用 设计 模式 。 


当然 ， 如 果 你 想 认 真 研究 这 个 话题 ，Gamma 等 人 写 的 《设计 模式 : 可 复 用 
面向 对 象 软件 的 基础 》 一 书 是 必 读 的 。 光 是 “引言 就 值 回 书 钱 了 “。 人 们 经 常 
引用 这 本 书 中 的 两 个 设计 原则 : “对 接口 编程 ， 而 不 是 对 实现 编程 "和 “优先 使 
用 对 象 组 合 ， 而 不 是 类 继承 ”。 


Python 拥有 一 等 畏 数 和 一 等 类 型 ，Norvig 声称 ， 这 些 特性 对 23 个 模式 
中 的 16 个 有 影响 (“Design Patterns in Dynamic Languages”, @ 10 张 幻 
灯 片 ) 。 读 到 下 一 章 你 会 发 现 ，Python PAZ HAL (7.8.2 17) 。 泛 函数 
与 CLOS 中 的 多 方法 (multimethod) 类 似 ，Gamma 等 人 建议 使 用 多 方 


法 以 一 种 简单 的 方式 实现 经 典 的 “访问 者 ”模式 。Norvig 却说 ， 多 方法 能 
fai Bids” (Builder) 模式 (第 10 张 幻 条 片 ，。 可 见 ， 设 计 模 式 与 
语言 特性 无 法 精确 对 应 。 


世界 各 地 的 课堂 经 常 使 用 Java 示例 讲解 设计 模式 。 我 不 止 一 次 听 学 生 说 
过 ， 他 们 以 为 设计 模式 在 任何 语言 中 都 有 用 。 事 实证 明 ， 在 Gamma 等 
人 合 著 的 那 本 书 中 ， 尽 管 大 部 分 使 用 C++ 代码 说 明 (少数 使 用 
Smalltalk) ， 但 是 23 个 “经 典 的 ?设计 模式 都 能 很 好 地 在 “经 典 的 "Java 中 
运用 。 然 而 ， 这 并 不 意味 着 所 有 模式 都 能 一 成 不 变 地 在 任何 语言 中 运 

用 。 那 本 书 的 作者 在 开头 就 明确 表明 了 , “一些 特殊 的 面 回 对 象 语言 可 
以 直接 支持 我 们 的 某 些 模式 ”《〈 完 整 的 引用 见 本 章 开 头 ) 。 


与 Java ` C++ 或 Ruby 相 比 ，Python 设计 模式 方面 的 书籍 都 很 薄 。 延 伸 
阅读 中 提 到 的 Learning Python Design Patterns (Gennadiy Zlobin #) 在 
2013 年 11 月 才 出 版 。 而 《Ruby 设计 模式 》 (Russ Olsen 闭 ) 在 2007 
年 就 出 版 了 ， 而 且 有 384 页 ， 比 Zlobin 的 那 本 书 多 出 284 页 。 


如 今 ，Python 在 学 术 界 越 来 越 流 行 ， 希 望 以 后 会 有 更 多 以 这 门 语言 讲解 
设计 模式 的 书籍 。 此 外 ，Java 8 引入 了 方法 引用 和 匿名 画 数 ， 这 些 广 受 
期 盼 的 特性 有 可 能 为 Java 催生 新 的 模式 实现 方式 一 “要 知道 ， 语 言 会 进 
化 ， 因 此 运用 经 典 设 计 模式 的 方式 必定 要 随 之 进化 。 


第 7 章 RAGAN 


有 很 多 人 抱怨 ， 把 这 个 特性 命名 为 “装饰 器 ?不 好 。 主 要 原因 是 ， 这 个 名 
称 与 GoF B ”使 用 的 不 一 致 。 装 饰 器 这 个 名 称 可 能 更 适合 在 编译 器 领域 
使 用 ， 因 为 它 会 志 历 并 注解 句法 树 。 


一 -一 “PEP 318 — Decorators for Functions and Methods” 


45 1995 年 出 版 的 英文 原版 《设计 模式 : 可 复 用 面向 对 象 软件 的 基础 》， 作 者 是 四 个 人 ， 人 们 称 
为 “四 人 组 ”(Gang of Four) ° 


函数 装饰 器 用 于 在 源码 中 “标记 ”函数 ， 以 某 种 方式 增强 函数 的 行为 。 这 是 一 
项 强大 的 功能 ， 但 是 车 想 掌 握 ， 必 须 理解 闭 包 。 

nonlocal 是 新 近 出 现 的 保留 关键 字 ， 在 Python 3.0 中 引入 。 作 为 Python 程 
序 员 ， 如 果 严 格 遵守 基于 类 的 面向 对 象 编 程 方式 ， 即 便 不 知道 这 个 关键 字 也 
不 会 受到 影响 。 然 而 ， 如 果 你 想 自己 实现 范 数 装饰 器 ， 那 就 必须 了 解 闭 包 的 
方方面面 ， 因 此 也 就 需要 知道 nonlocal。 


on 中 有 用 处 之 外 ， 闭 包 还 是 回调 式 异 步 编程 和 函数 式 编 程 风格 的 
基础 。 


本 章 的 最 终 目 标 是 解释 清楚 函数 装饰 器 的 工作 原理 ， 包 括 最 简单 的 注册 装饰 
Sn 
。 Python 如 何 计算 装饰 器 句法 
e Python 如 何 判断 变量 是 不 是 局 部 的 
。 闭 包 存在 的 原因 和 工作 原理 
e nonlocal 能 解决 什么 问题 
掌握 这 些 基础 知识 后 ， 我 们 可 以 进一步 探讨 装饰 器 : 
。 实现 行为 良好 的 装饰 器 
。 标准 库 中 有 用 的 装饰 器 


。 实现 一 个 参数 化 装饰 句 


下 面 将 首先 介绍 装饰 器 的 基础 知识 ， 然 后 再 讨论 上 面 列 出 的 各 个 话题 。 


7.1 装饰 右 基 础 知识 

装饰 器 是 可 调用 的 对 象 ， 其 参数 是 另 一 个 函数 〈 被 装饰 的 画 数 ) 。? 装饰 器 
e PIE Cig, KERR SARA AKEE 
Vi X 2 


*Python 也 支持 类 装饰 器 ， 参 见 第 21 o 


假如 有 个 名 为 decorate 的 装饰 器 : 


@decorate 
def target(): 
print('running target()') 


上 述 代 码 的 效 末 与 下 述 写法 一 样 : 


def target(): 
print('running target()') 


target = decorate(target) 


两 种 写法 的 最 终结 果 一 样 : 上述 两 个 代码 片段 执行 完毕 后 得 到 的 target 不 
一 定 是 原来 那个 target WA, mÆ decorate(target ) 返回 的 函数 。 


Fy TB BCR RS BCR, TANG 7-1 中 的 控制 台 会 话 。 
示例 7-1 ”装饰 器 通常 把 函数 替换 成 另 一 个 函数 


>>> def deco(func): 
def inner(): 
print('running inner()') 
return inner @ 


>>> @deco 
. def target(): @ 
print('running target()') 


>>> target() © 
running inner() 


>>> target @ 
<function deco.<locals>.inner at 0x10063b598> 


@ deco 返回 inner 函数 对 象 。 

@ 使 用 deco 装饰 target。 

© 调用 被 装饰 的 target 其 实 会 运行 jnner 。 

O 审查 对 象 ， 发 现 target HE inner 的 引用 。 

站 格 来 说 ， 闭 饰 右 只 是 语法 糖 。 如 前 所 示 ， 闭 饰 占 可 以 像 常 规 的 可 调用 对 象 

那样 调用 ， 其 参数 是 另 一 个 函数 。 有 时 ， 这 样 做 更 方便 ， 尤 其 是 做 元 编程 
(在 运行 时 改变 程序 的 行为 ) 时 。 

综 上 ， 装 饰 器 的 一 大 特性 是 ， 能 把 被 装饰 的 函数 蔡 换 成 其 他 函数 。 第 二 个 特 

性 是 ， 装 饰 器 在 加 载 模块 时 立即 执行 。 下 一 节 会 说 明 。 

7.2 ”Python 何 时 执行 装饰 器 

装饰 器 的 一 个 关键 特性 是 ， 它 们 在 被 装饰 的 函数 定义 之 后 立即 运行 。 这 通常 

soon (EH Python 加 载 模块 时 ) ， 如 示例 7-2 中 的 registration.py 模块 
ZR œ 


示例 7-2 registration.py 模块 


registry = [] @ 


def register(func): @ 
print('running register(%s)' % func) © 
registry.append(func) @ 
return func © 


@register © 
def f1(): 
print('running f1()') 


@register 
def f2(): 
print('running f2()') 


def f3(): @ 
print('running f3()') 


def main(): © 


print('running main()') 
print('registry ->', registry) 
f1() 

f2() 

f3() 


if name __=='__main_': 
main() © 


@ registry 保存 被 Qregister 装饰 的 函数 引用 。 


@ register 的 参数 是 一 个 函数 。 

O 为 了 演示 ， 显 示 被 装饰 的 函数 。 

@ 把 func 存 入 registry。 

@ 返回 func: 必须 返回 画 数 ， 这 里 返回 的 函数 与 通过 参数 传 入 的 一 样 。 
@f1 和 f2 被 Qregister 装饰 。 


O f3 没有 装饰 。 


© main 显示 registry， 然 后 调用 f1()、f2() 和 f3()。 
© 只 有 把 registration.py 当 作 脚本 运行 时 才 调 用 main()。 
把 registration.py 当 作 脚本 运行 得 到 的 输出 如 下 : 


$ python3 registration.py 

running register(<function f1 at 0x100631bf8>) 

running register(<function f2 at 0x100631c80>) 

running main() 

registry -> [<function f1 at 0x100631bf8>, <function f2 at 0x100631c80>] 


running f1() 
running f2() 
running f3() 


JER, register 在 模块 中 其 他 函数 之 前 运行 (两 次 ) 。 调 用 register 
时 ， 传 给 它 的 参数 是 被 闭 饰 的 函数 ， 例 如 <function f1 at 
0x100631bf8> ° 


加 载 模块 后 ， registry 中 有 两 个 被 装饰 函数 的 引用 : f1 和 f2 © PTE 
数 ， 以 及 f3， 只 在 main 明确 调用 它们 时 才 执 行 。 


如 果 导 入 registration.py 模块 (不 作为 脚本 运行 ， 输 出 如 下 : 


>>> import registration 
running register(<function f1 at 0x10063b1e0>) 
running register(<function f2 at 0x10063b268>) 


此 时 查看 registry 的 值 ， 得 到 的 输出 如 下 : 


>>> registration.registry 
[<function f1 at 0x10063bie0>, <function f2 at 0x10063b268>] 


示例 7-2 主要 想 强 调 ， 函 数 装饰 器 在 导入 模块 时 立即 执行 ， 而 被 装饰 的 函数 
ace 主 明 确 调用 时 运行 。 这 突出 了 Python 程序 员 所 说 的 导入 时 和 运行 时 之 间 的 
x Fil 
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通常 在 一 个 模块 中 定义 ， 然 后 应 用 到 其 他 模块 中 的 函数 上 。 


register 法 饰 器 返回 的 函数 与 通过 参数 传 入 的 相同 。 实 际 上 ， 大 多 数 
装饰 霹 会 在 内 部 定义 一 个 函数 ， 然 后 将 其 返回 。 


虽然 示例 7-2 中 的 register 装饰 器 原封 不 动 地 返回 被 装饰 的 函数 ， 但 是 这 
种 技术 并 非 没 有 用 处 。 很 多 Python Web 框架 使 用 这 样 的 装饰 器 把 函数 添加 
到 某 种 中 央 注 册 处 ， 例 如 把 URL 模式 映射 到 生成 HTTP 响应 的 函数 上 的 注 
i 。 这 种 注册 装饰 器 可 能 会 也 可 能 不 会 修改 被 装饰 的 函数 。 下 一 下 会 举例 
说 明 o 


7.3 ”使 用 装饰 器 改进 “策略 ”模式 
使 用 注册 装饰 器 可 以 改进 6.1 节 中 的 电 商 促销 折扣 示例 。 


回顾 一 下 ， 示 例 6-6 的 主要 问题 是 ， 定 义 体 中 有 函数 的 名 称 ， 但 
best_promo 用 来 判断 哪个 折扣 幅度 最 大 的 promos 列表 中 也 有 函数 名 
称 。 这 种 重复 是 个 问题 ， 因 为 新 增 策 略 函 数 后 可 能 会 忘记 把 它 添 加 到 
promos 列表 中 ， 导 致 best _promo 名 略 新 策略 ， 而 且 不 报错 ， 为 系统 引 
入 了 不 易 察 觉 的 缺陷 。 示 例 7-3 使 用 注册 装饰 器 解决 了 这 个 问题 。 


wey 


示例 7-3 promos 列表 中 的 值 使 用 promotion 装饰 器 填充 


promos = [] @ 


def promotion(promo_func): @ 
promos. append(promo_func) 
return promo_func 


@promotion © 
def fidelity(order): 
"" "为 积分 为 1996 或 以 上 的 顾客 提供 5% 折 扣 """ 


return order.total() * .05 if order.customer.fidelity >= 1000 else 0 


@promotion 
def bulk_item(order): 
""" 单 个 商品 为 20 个 或 以 上 时 提供 16% 折 扣 """ 
discount = 0 
for item in order.cart: 
if item.quantity >= 20: 
discount += item.total() * .1 
return discount 


@promotion 
def large_order(order): 
"" "订单 中 的 不 同 商品 达到 16 个 或 以 上 时 提供 7% 折 扣 """ 
distinct_items = {item.product for item in order.cart} 
if len(distinct_items) >= 10: 
return order.total() * .07 
return 0 


best_promo(order): ©@ 
"选择 可 用 的 最 佳 折扣 


return max(promo(order) for promo in promos) 


@ promos 列表 起 初 是 空 的 。 


@ promotion 把 promo_func 添加 到 promos 列表 中 ， 然 后 原封 不 动 地 
将 其 返回 。 


© 被 @promotion 装饰 的 函数 都 会 添加 到 promos 列表 中 。 
© best_promos 无 需 修 改 ， 因 为 它 依赖 promos 列表 。 
与 6.1 节 给 出 的 方案 相 比 ， 这 个 方案 有 几 个 优点 。 
。 促销 策略 函数 无 需 使 用 特殊 的 名 称 ( 即 不 用 以 _promo 结尾 ) 。 


。@promotion RIMAR SPOTTY EN IEA, Me Pm ASR ASE 
促销 策略 : 只 需 把 装饰 右 注 释 掉 。 


。 促销 折扣 策略 可 以 在 其 他 模块 中 定义 ， 在 系统 中 的 任何 地 方 都 行 ， 只 要 
使 用 @promotion 装饰 即 可 。 


不 过 ， 多 数 装饰 器 会 修改 被 装饰 的 画 数 。 通 常 ， 它 们 会 定义 一 个 内 部 画 数 ， 
然后 将 其 返回 ， 替 换 被 装饰 的 画 数 。 使 用 内 部 画 数 的 代码 几乎 都 要 靠 闭 包 才 
能 正确 运作 。 为 了 理解 四 包 ， 我 们 要 退 后 一 步 。 先 了 解 Python 中 的 变量 作用 
7.4 ”变量 作用 域 规则 


在 示例 7-4 中 ， 我 们 定义 并 测试 了 一 个 函数 ， uae 两 小 变量 的 信 ; 二 是 
局 部 变量 a， 是 函数 的 参数 ， 男 一 个 是 变量 bak 文 个 函数 没有 定义 它 。 


示例 7-4 ”一 个 画 数 ， 读 取 一 个 局 部 变量 和 一 个 全 局 变量 


>>> def fi(a): 
print(a) 
print(b) 


>>> f1(3) 
3 


Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
File "<stdin>", line 3, in f1 
NameError: global name 'b' is not defined 


出 现 错误 并 不 奇怪 。? 在 示例 7-4 中 ， 如 果 移 给 全 局 变量 b 赋值 ， 然 后 再 调 
用 f1， 那 就 不 会 出 错 : 


3 在 Python 3.5 中 ， 错 误 信 息 是 NameError: name 'b' is not defined， 删 除了 global e 
4 者 注 


>>> b = 6 
>>> f1(3) 
3 
6 


下 面 看 一 个 可 能 会 让 你 吃惊 的 示例 。 


看 一 下 示例 7-5 中 的 f2 函数 。 前 两 行 代码 与 示例 7-4 中 的 f1 一 样 ， 然 后 为 
b 赋值 ， 再 打印 它 的 值 。 可 是 ， 在 赋值 之 前 ， 第 二 个 print 失败 了 。 


示例 7-5 b 是 局 部 变量 ， 因 为 在 函数 的 定义 体 中 给 它 赋 值 了 


>>> b = 6 

>>> def f2(a): 
print(a) 
print(b) 
b= 9 


>>> f2(3) 
3 
Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
File "<stdin>", line 3, in f2 
UnboundLocalError: local variable 'b' referenced before assignment 


注意 ， 首 先 输 出 了 3， 这 表明 print(a) 语句 执行 了 。 但 是 第 二 个 语句 
print(b) 执行 不 了 。 一 开始 我 很 吃惊 ， 我 觉得 会 打印 6， 因 为 有 个 全 局 变 
量 b， 而 且 是 在 print(b) 之 后 为 局 部 变量 b 赋值 的 。 


可 事实 是 ，Python 编译 函数 的 定义 体 时 ， 它 判断 b 是 局 部 变量 ， 因 为 在 函数 
中 给 它 赋值 了 。 生 成 的 字 节 码 证 实 了 这 种 判断 ，Python 会 尝试 从 本 地 环境 获 
取 b。 后 面 调 用 f2(3) 时 ，f2 的 定义 体会 获取 并 打印 局 部 变量 a 的 值 ， 但 
征 演 试 获取 局 部 变量 b 的 值 时 ， 发 现 b 没有 绑 定 值 。 
这 不 是 缺陷， 而 是 设计 选择 : Python 不 要 求 声 明 变 量 ， 但 是 假定 在 函数 定义 
体 中 赋值 的 变量 是 局 部 变量 。 这 比 JavaScript 的 行为 好 多 了 ，JavaScript 也 不 
要 求 声明 变量 ， 但 是 如 果 忘 记 把 变量 声明 为 局 部 变量 (使 用 var) ， 可 能 会 
在 不 知情 的 情况 下 获取 全 局 变量 。 


如 果 在 函数 中 赋值 时 想 让 解释 器 把 b 当成 全 局 变量 ， 要 使 用 global 声明 : 


>>> b = 6 

>>> def f3(a): 

bi global b 
print(a) 
print(b) 
b = 9 

>>> f3(3) 

3 

6 

>>> b 


>>> f3(3) 


了 解 Python 的 变量 作用 域 之 后 ， 下 一 节 可 以 讨论 闭 包 了 。 如 果 好 奇 示例 7-4 
和 示例 7-5 中 的 两 个 函数 生成 的 字 节 码 有 什么 区 别 ， 请 阅读 下 述 附 注 栏 。 


比较 学 节 码 


dis 模块 为 反 汇编 Python 函数 字 节 码 提 供 了 简单 的 方式 。 示 例 7-6 和 7- 
7 中 分 别 是 示例 7-4 中 f1 和 示例 7-5 中 f2 的 字 节 码 。 


示例 7-6 反 汇 编 示 例 7-4 中 的 f1 RL 


>>> from dis import dis 
>>> dis(f1) 
LOAD_GLOBAL (print) @ 
LOAD_FAST (a) @ 
CALL_FUNCTION (1 positional, 0 keyword 


POP_TOP 


LOAD_GLOBAL (print) 
LOAD_GLOBAL (b) © 
CALL_FUNCTION (1 positional, 0 keyword 


POP_TOP 
LOAD_CONST (None) 
RETURN_VALUE 


@ 加 载 全 局 名 称 print。 

@ 加 载 本 地 名 称 a。 

© 加 载 全 局 名 称 b。 

请 比较 示例 7-6 中 fd 的 字 节 码 和 示例 7-7 中 f2 的 字 节 码 。 
示例 7-7 反 汇 编 示例 7-5 中 的 f2 函数 


>>> dis(f2) 
2 0 LOAD_GLOBAL 0 (print) 


3 LOAD_FAST 9 (a) 

6 CALL_FUNCTION 1 (1 positional, © keyword 
pair) 

9 POP_TOP 
3 10 LOAD_GLOBAL 9 (print) 

13 LOAD_FAST 1 (b) @ 

16 CALL_FUNCTION 1 (1 positional, © keyword 
pair) 

19 POP_TOP 
4 20 LOAD_CONST 1 (9) 

23 STORE_FAST 1 (b) 

26 LOAD_CONST 0 (None) 


29 RETURN_VALUE 


@ 加 载 本 地 名 称 b。 这 表明 ， 编 译 器 把 b 视 
为 b 赋值 ， 因 为 变量 的 种 类 (是 不 是 局 部 变量 
体 。 


iBtt + TSA) CPython VM 是 栈 机 器 ， 因 此 LOAD 和 POP 操作 引用 的 是 
栈 。 深 入 说 明 Python 操作 码 不 在 本 书 范畴 之 内 ， 不 过 dis 模块 的 文档 
对 其 做 了 说 明 。 

7.5 WE, 

在 博客 圈 ， 人 们 有 时 会 把 闭 包 和 匿名 函数 弄 混 。 这 是 有 历史 原因 的 : 在 函数 
内 部 定义 函数 不 常见 ， 直 到 开始 使 用 匿名 函数 才 会 这 样 做 。 而 且 ， 只 有 涉及 
拭 套 画 数 时 才 有 闭 包 问题 。 因 此 ， 很 多 人 是 同时 知道 这 两 个 概念 的 。 

其 实 ， 闭 包 指 延伸 了 作用 域 的 函数 ， 其 中 包含 函数 定义 体 中 引用 、 但 是 不 在 
定义 体 中 定义 的 非 全 局 变量 。 函 数 是 不 是 匿名 的 没有 关系 ， 关 键 是 它 能 访问 
定义 体 之 外 定义 的 非 全 局 变量 

这 个 概念 难以 掌握 ， 最 好 通过 示例 理解 。 


假如 有 个 名 为 avg 的 画 数 ， 它 的 作用 是 计算 不 断 增加 的 系列 值 的 均值 ， 例 
如 ， 整 个 历史 中 某 个 商品 的 平均 收盘 价 。 每 天 都 会 增加 新 价格 ， 因 此 平均 值 
要 考虑 至 目前 为 止 所 有 的 价格 。 


起 初 ，avg 是 这 样 使 用 的 : 


>>> avg(10) 
10.0 
>>> avg(11) 


作 局 部 变量 ， 即 使 在 后 面 才 
) 不 能 改变 函数 的 定义 


10.5 
>>> avg(12) 
11.0 


avg 从 何 而 来 ， 它 又 在 哪里 保存 历史 值 呢 ? 
初学 者 可 能 会 像 示 例 7-8 那样 使 用 类 实现 。 
示例 7-8 average_oo.py: 计算 移动 平均 值 的 类 


class Averager(): 


def __ init__(self): 
self.series = [] 


def _ call (self, new_value): 
self.series.append(new_value) 
total = sum(self.series) 
return total/len(self.series) 


Averager 的 实例 是 可 调用 对 象 : 


>>> avg = Averager() 
>>> avg(10) 

10.0 

>>> avg(11) 

10.5 


>>> avg(12) 
11.0 


示例 7-9 average.py: WAAD FEE HAL 


def make_averager(): 
series = [] 


def averager(new_value): 
series.append(new_value) 


total = sum(series) 
return total/len(series) 


return averager 


调用 make_averager 时 ， 返 回 一 个 averager 函数 对 象 。 每 次 调用 
averager 时 ， 它 会 把 参数 添加 到 系列 值 中 ， 然 后 计算 当前 平均 值 ， 如 示例 


7-10 所 示 。 


示例 7-10 测试 示例 7-9 


>>> avg = make_averager() 
>>> avg(10) 

10.0 

>>> avg(11) 

10.5 


>>> avg(12) 
11.0 


注意 ， 这 两 个 示例 有 共通 之 处 : 调用 Averager() =% make_averager ( ) 
得 到 一 个 可 调用 对 象 avg， 它 会 更 新 历史 值 ， 然 后 计算 当前 均值 。 在 示例 7- 
8 中 ，avg 是 Averager 的 实例 ， 在 示例 7-9 中 是 内 部 函数 averager。 不 
~ 我 们 都 只 需 调 用 avg(n)， 把 n 放 入 系列 值 中 ， 然 后 重新 计算 均 


Averager 类 的 实例 avg 在 哪里 存储 历史 值 很 明显 : self.series 实例 属 
性 。 但 是 第 二 个 示例 中 的 avg KAEM EFH series WE? 

JER, series 是 make_averager 函数 的 局 部 变量 ， 因 为 那个 函数 的 定义 
体 中 初始 化 了 series: series = []° Hz, WH avg(10) 时 ， 
make_averager 函数 已 经 返回 了 ， 而 它 的 本 地 作用 域 也 一 去 不 复 返 了 © 


在 averager 函数 中 ，series 是 自由 变量 (free variable) 。 这 是 一 个 技术 
术语 ， 指 未 在 本 地 作用 域 中 绑 定 的 变量 ， 参 见 图 7-1。 


def make averager(): 


series 


def averager(new value): 


自由 变量 series|.append(new_value) 


total = (series) 
return total/len(series) 


return averager 


图 7-1: averager 的 闭 包 延伸 到 那个 函数 的 作用 域 之 外 ， 包 含 自由 变量 
series 的 绑 定 


审查 返回 的 averager 对 象 ， 我 们 发 现 Python Æ _ code 属性 (表示 编 
译 后 的 函数 定义 体 ) 中 保存 局 部 变量 和 自由 变量 的 名 称 ， 如 示例 7-11 所 示 。 


示例 7-11 审查 make_averager ( 见 示例 7-9) 创建 的 函数 


>>> avg.__code__.co_varnames 
('new_value', 'total') 


>>> avg.__code__.co_freevars 
('series', ) 


series 的 绑 定 在 返回 的 avg 函数 的 closure _ 属性 中 。 

avg. closure__” 中 的 各 个 元 素 对 应 于 avg.__code__.co_freevars 
中 的 一 个 名 称 。 这 些 元 素 是 cell 对 象 ， 有 个 cell_contents 属性 ， 保 存 
着 真正 的 值 。 这 些 属性 的 值 如 示例 7-12 所 示 。 


示例 7-12 ”接续 示例 7-11 


>>> avg.__code__.co_freevars 
('series', ) 
>>> avg.__closure__ 


(<cell at 0x107a44f78: list object at 0x107a91a48>, ) 
>>> avg.__closure__[0].cell_contents 
[10, 11, 12] 


综 上 ， 闭 包 是 一 种 函数 ， 它 会 保留 定义 函数 时 存在 的 目 由 变量 的 绑 定 ， 这 样 


调用 画 数 时 ， 虽 然 定义 作用 域 不 可 用 了 ， 但 是 仍 能 使 用 那些 绑 定 。 
注意 ， 只 有 内 套 在 其 他 函数 中 的 函数 才 可 能 需要 处 理 不 在 全 局 作用 域 中 的 外 


EYA Et. 
部 变量 。 


7.6 nonlocal 声 明 


前 面 实现 make_averager 函数 的 方法 效率 不 高 。 在 示例 7-9 中 ， 我 们 把 所 
有 值 存储 在 历史 数列 中 ， 然 后 在 每 次 调用 averager 时 使 用 sum 求 和 。 更 
ree 只 存储 目前 的 总 值 和 元 素 个 数 ， 然 后 使 用 这 两 个 数 计算 均 


示例 7-13 中 的 实现 有 缺陷 ， 只 二 为 了 前 明 观 点 。 你 能 看 出 缺陷 在 哪儿 吗 ? 


示例 7-13 ”计算 移动 平均 值 的 高 阶 画 数 ， 不 保存 所 有 历史 值 ， 但 有 缺陷 


def make_averager(): 
count = 0 
total = 0 


def averager(new_value): 
count += 1 
total += new_value 
return total / count 


return averager 


BE LAN 7-13 中 定义 的 函数 ， 会 得 到 如 下 结 采 : 


>>> avg = make_averager() 
>>> avg(10) 
Traceback (most recent call last): 


UnboundLocalError: local variable 'count' referenced before assignment 
>>> 


问题 是 ， 当 count 是 数字 或 任何 不 可 变 类 型 时 ，count += 1 语句 的 作用 

其 实 与 count = count + 1 一 样 。 因 此 ， 我 们 在 averager 的 定义 体 中 
为 count 赋值 了 ， 这 会 把 count 变 成 局 部 变量 。total 变量 也 受 这 个 问题 
EY 

影响 。 


示例 7-9 没 遇 到 这 个 问题 ， 因 为 我 们 没有 给 series 赋值 ， 我 们 只 是 调用 
series.append， 并 把 它 传 给 sum 和 LIen。 也 就 是 说 ， 我 们 利用 了 列表 是 
可 变 的 对 象 这 一 事实 。 


但 是 对 数字 、 字 符 串 、 元 组 等 不 可 变 类 型 来 说 ， 只 能 读 取 ， 不 能 更 新 。 如 果 
党 试 重 新 绑 定 ， 例 如 count = count + 1， 其 实 会 隐 式 创建 局 部 变量 
count。 这 样 ，count 就 不 是 自由 变量 了 ， 因 此 不 会 保存 在 闭 包 中 。 


为 了 解决 这 个 问题 ，Python 3 引入 了 nonlocal 声明 。 它 的 作用 是 把 变量 标 
记 为 自由 变量 ， 即 使 在 函数 中 为 变量 赋予 新 值 了 ， 也 会 变 成 自由 变量 。 如 果 
H nonlocal 声明 的 变量 赋予 新 值 ， 闭 包 中 保存 的 绑 定 会 更 新 。 最 新 版 
make_averager 的 正确 实现 如 示例 7-14 所 示 。 


$ 7-14 计算 移动 平均 值 ， 不 保存 所 有 历史 (使 用 nonlocal 修 
正 


def make_averager(): 
count = 0 
total = 0 


def averager(new_value): 
nonlocal count, total 
count += 1 
total += new_value 
return total / count 


return averager 


本 对 付 没 有 nonlocal 的 Python 2 

Python 2 没有 nonlocal， 因 此 需要 变通 方法 ，“PEP 3104—Access to 
Names in Outer Scopes” (nonlocal 在 这 个 PEP 中 引入 ) 中 的 第 三 个 代 
码 片段 给 出 了 一 种 方法 。 基 本 上 ， 这 种 处 理 方 式 是 把 内 部 函数 需要 修改 
的 变量 (如 count 和 total) 存储 为 可 变 对 象 (如 字典 或 简单 的 实 
例 ) 的 元 素 或 属性 ， 并 且 把 那个 对 象 绑 定 给 一 个 和 目 由 变量 。 


至 此 ， 我 们 了 解 了 Python 闭 包 ， 下 面 可 以 使 用 般 套 函数 正式 实现 装饰 器 了 。 


7.7 ”实现 一 个 简单 的 装饰 器 


示例 7-15 定义 了 一 个 雄 贤 右 ， 它 会 在 每 次 调用 被 竣 师 的 画 数 时 计时 ， 然 后 把 
经 过 的 时 间 、 传 入 的 参数 和 调用 的 结 采 打印 出 来 。 


示例 7-15 ”一 个 简单 的 装饰 器 ， 输 出 函数 的 运行 时 间 


import time 


def clock(func): 
def clocked(*args): # 各 
tO = time.perf_counter() 
result = func(*args) #@ 
elapsed = time.perf_counter() - tO 


name = func.__name__ 
arg_str = ', '.join(repr(arg) for arg in args) 
print('[%0.8fs] %s(%S) -> %r' % (elapsed, name, arg_str, 
result) ) 
return result 
return clocked # © 


定义 内 部 函数 clocked， 它 接受 任意 个 定位 参数 。 
这 行 代 码 可 用 ， 是 因为 clocked 的 闭 包 中 包含 自由 变量 func e 


© 
© 
目 返 回 内 部 函数 ， 取 代 被 装饰 的 函数 。 示 例 7-16 演示 了 Clock 装饰 器 的 用 
法 


示例 7-16 ”使 用 clock 装饰 器 


# clockdeco_demo.py 


import time 
from clockdeco import clock 


@clock 
def snooze(seconds): 
time.sleep(seconds) 


@clock 
def factorial(n): 
return 1 if n < 2 else n*factorial(n-1) 


if name__=='_ main__': 
print('*' * 40, 'Calling snooze(.123)') 
snooze(.123) 
print('*' * 40, ‘Calling factorial(6)') 
print('6! =', factorial(6) ) 


运行 示例 7-16 得 到 的 输出 如 下 : 


$ python3 clockdeco_demo.py 
类 火炎 火炎 炎炎 火炎 炎炎 火炎 炎炎 火炎 火炎 火炎 炎炎 火炎 炎炎 火炎 炎炎 火炎 炎炎 火炎 火炎 类 Calling Snooze( .123) 
[0.12405610s] snooze(.123) -> None 
类 炎炎 火炎 火炎 火炎 炎炎 炎炎 炎炎 火炎 火炎 火炎 炎炎 火炎 炎炎 火炎 炎炎 火炎 火炎 火炎 火炎 火 Calling factorial(6) 
.00000191s] factorial(1) 
.00004911s] factorial(2) 


.00008488s] factorial(3) 
.00013208s] factorial(4) 
.00019193s] factorial(5) 
.00026107s] factorial(6) 


工作 原理 
记得 吗 ， 如 下 代码 : 


@clock 
def factorial(n): 
return 1 if n < 2 else n*factorial(n-1) 


def factorial(n): 
return 1 if n < 2 else n*factorial(n-1) 


factorial = clock(factorial) 


因此 ， 在 两 个 示例 中 ，factorial 会 作为 func 参数 传 给 clock (参见 示 
例 7-15) 。 然 后 ，clock 画 数 会 返回 clocked 函数 ，Python 解释 器 在 背 
后 会 把 clocked 赋值 给 factorial。 其 实 ， 导 入 clockdeco_demo 模块 
后 查看 factorial 的 _name _ 属性 ， 会 得 到 如 下 结果 : 


>>> import clockdeco_demo 

>>> clockdeco demo.factorial. name _ 
"clocked' 

>>> 


所 以 ， 现 在 factorial 保存 的 是 clocked 函数 的 引用 。 自 此 之 后 ， 每 次 
调用 factorial(n)， 执行 的 都 是 clocked(n)。clocked 大 致 做 了 下 面 
几 件 事 。 


(1) 记录 初始 时 间 t0。 
(2) 调用 原来 的 factorial WAN, (RSE 
(3) 计算 经 过 的 时 间 。 
(4) 格式 化 收集 的 数据 ， 然 后 打印 出 来 。 
(5) 返回 第 2 步 保 存 的 结果 。 

x 
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， 而 且 GEA) 返回 被 装饰 的 函数 本 该 返回 的 值 ， 同 时 还 会 做 些 额外 操 


[© 


A Gamma 等 人 写 的 《设计 模式 ， 可 复 用 面向 对 象 软件 的 基础 》 一 书 
征 这 样 概述 “装饰 器 "模式 的 : “动态 地 给 一 个 对 象 添加 一 些 额 外 的 职 

责 。” 函 数 痛 炳 硕 符 合 这 一 说 法 。 但 是 ， 在 实现 层面 ，Python 2e0iae 
《设计 模式 : 可 复 用 面向 对 象 软件 的 基础 》 中 所 述 的 “装饰 器 ?没有 多 少 
相似 之 处 。“ 杂 谈 ” 会 进一步 探讨 这 个 话题 。 


示例 7-15 中 实现 的 clock 装饰 器 有 几 个 缺点 : 不 文 持 关键 字 参 数 ， 而 且 遮 
盖 了 被 装饰 函数 的 _name 和 ”doc _ 属性 。 示 例 7-17 使 用 
functools.wraps 装饰 妖 把 相关 的 属性 从 func 复制 到 clocked 中 。 此 
外 ， 这 个 新 版 还 能 正确 处 理 关键 字 参 数 。 


示例 7-17 改进 后 的 clock 装饰 器 


# clockdeco2.py 


import time 
import functools 


def clock(func): 
@functools.wraps(func) 
def clocked(*args, **kwargs): 
tO = time.time() 
result = func(*args, **kwargs) 
elapsed = time.time() - tO 
name = func.__name__ 
arg_lst = [] 
if args: 
arg_lst.append(', '.join(repr(arg) for arg in args)) 
if kwargs: 
pairs = ['%s=%r' % (k, w) for k, w in 
sorted(kwargs.items())] 
arg_lst.append(', '.join(pairs) ) 
arg_str = ', '.join(arg_lst) 
print('[%0.8fs] %s(%S) -> %r ' % (elapsed, name, arg_str, 
result) ) 
return result 
return clocked 


functools.wraps 只 是 标准 库 中 拿 来 即 用 的 装饰 器 之 一 。 下 一 市 将 介绍 
functools 模块 中 最 让 人 印象 深刻 的 两 个 装饰 颖 :lru_cache 和 
singledispatch ° 


7.8 ENERE RHS AN 


Python 内 置 了 三 个 用 于 装饰 方法 的 函数 : property、classmethod 和 
staticmethod ° property 在 19.2 节 讨 论 ， 另 外 两 个 在 9.4 节 讨论 。 


另 一 个 常见 的 装饰 器 是 functools .wraps， 它 的 作用 是 协助 构建 行为 良好 

的 装饰 姻 。 我 们 在 示例 7-17 中 用 过 。 标 准 库 中 最 值得 关注 的 两 个 装饰 器 是 

lru _cache 和 全 新 的 singledispatch (Python 3.4 新 增 ) ° 这 两 个 装饰 
ARARE Functools 模块 中 定义 。 接 下 来 分 别 讨论 它们 。 


7.8.1 使 用 functools.Lru_cache 做 备 忘 


functools.lru_cache =J% XHA iMan, ESET aoe 
(memoization) 功能 。 这 是 一 项 优化 技术 ， 它 把 耗 时 的 画 数 的 结果 保存 起 
来 ， 避 人 免 传 入 相同 的 参数 时 重复 计算 。LRU 三 个 字母 是 “Least Recently 
ee 表明 缓存 不 会 无 限制 增长 ， 一 段 时 间 不 用 的 缓存 条 目 会 被 扔 


生成 第 n 个 辈 波 纳 契 数 这 种 慢 速递 归 画 数 适 合 使 用 Lru_cache， 如 示例 7- 
18 所 示 。 


示例 7-18 ERE n 个 斐 波 纳 契 数 ， 递 归 方 式 非常 耗 时 


from clockdeco import clock 


@clock 
def fibonacci(n): 
if n < 2: 
return n 


return fibonacci(n-2) + fibonacci(n-1) 


name__=='_ main__': 
print(fibonacci(6) ) 


运行 fibo_demo.py 得 到 的 结果 如 下 。 除 了 最 后 一 行 ， 其 余 输 出 都 是 clock 
ee Vilas EBAY) © 


$ python3 fibo_demo. py 

[©.00000095s] fibonacci(0) - 
[©.00000095s] fibonacci(1) - 
[0.00007892s] fibonacci(2) - 
[©.00000095s] fibonacci(1) - 
[@.00000095s] fibonacci(0) - 
[©.00000095s] fibonacci(1) - 
[©.00003815s] fibonacci(2) - 
[0.00007391s] fibonacci(3) - 
[©.00018883s] fibonacci(4) - 


VVVVVVVVV 
WNPPAOPPPO 


[©.00000000s] 
[©.00000095s] 
[©.00000119s] 
[0.00004911s] 
[0.00009704s] 
[©.00000000s ] 
[©.00000000s] 
[0.00002694s] 
[©.00000095s] 
[0 .00000095s] 
[0 .00000095s] 
[0.00005102s] 
[0 .00008917s] 
[0.00015593s] 
[0.00029993s] 
[0.00052810s] 


fibonacci(1) 
fibonacci(0) 
fibonacci(1) 
fibonacci(2) 
fibonacci(3) 
fibonacci(0) 
fibonacci(1) 
fibonacci(2) 
fibonacci(1) 
fibonacci(0) 
fibonacci(1) 
fibonacci(2) 
fibonacci(3) 
fibonacci(4) 
fibonacci(5) 
fibonacci(6) 


OUNWNRRORRPRPONRFRORF 


浪费 时 间 的 地 方 很 明显 : fibonacci(1) 调用 了 8 次 ，fibonacci(2) 调 
用 了 5 次 ..…. 但 是 ， 如 果 增 加 两 行 代码 ， 使 用 Lru_cache， 人 性 能 会 显著 改 
善 ， 如 示例 7-19 所 示 。 


示例 7-19 ”使 用 缓存 实现 ， 速 度 更 快 


import functools 
from clockdeco import clock 


@functools.1ru_cache() # @ 
@clock #@ 
def fibonacci(n): 
if n < 2: 
return n 
return fibonacci(n-2) + fibonacci(n-1) 


main__': 


if name__==' 
print(fibonacci(6) ) 


@ 注意 ， 必 须 像 常 规 画 数 那 样 调用 lru_cache。 这 一 行 中 有 一 对 括号 : 
@functools .1lru_cache()。 这 么 做 的 原因 是 ，1lru_cache 可 以 接受 配 
置 参数 ， 稍 后 说 明 。 

@ 这 里 释放 了 装饰 器 : @lru_cache() 应 用 到 @clock 返回 的 函数 上 。 


这 样 一 来 ， 执 行 时间 减 半 了 ， 而 且 n 的 每 个 值 只 调用 一 次 函数 : 


$ python3 fibo_demo_lru.py 
.00000119s] fibonacci(0) - 
.00000119s] fibonacci(1) - 
.00010800s] fibonacci(2) - 
.00000787s] fibonacci(3) - 


.00016093s] fibonacci(4) - 
.00001216s] fibonacci(5) - 
.00025296s] fibonacci(6) - 


VVVVVV Vv 


在 计算 Ffibonacci(30) 的 另 一 个 测试 中 ， 示 例 7-19 中 的 版 本 在 0.0005 秘 
内 调用 了 31 次 fibonacci 函数 ， 而 示例 7-18 中 未 缓存 的 版 本 调用 
fibonacci 函数 2 692 537 次 ， 在 使 用 Intel Core i7 处 理 妖 的 笔记 本 电脑 中 
FERT 17.7 秒 。 


除了 优化 递归 算法 之 外 ，Lru_cache 在 从 Web 中 获取 信息 的 应 用 中 也 能 发 
挥 巨大 作用 。 


特别 要 注意 ，Lru_cache 可 以 使 用 两 个 可 选 的 参数 来 配置 。 它 的 签名 是 : 


functools.1lru_cache(maxsize=128, typed=False) 


maxsize 参数 指定 存储 多 少 个 调用 的 结果 。 绥 存 满 了 之 后 ， 旧 的 结果 会 被 

扔 掉 ， 腾 出 空间 。 为 了 得 到 最 佳 性 能 ，maxsize 应 该 设 为 2 W% ° typed 

参数 如 果 设 为 True， 把 不 同 参数 类 型 得 到 的 结果 分 开 保 存 ， 即 把 通常 认为 

相等 的 浮 点 数 和 整数 参数 (O01 $1.0) 区 分 开 。 顺 便 说 一 下 ， 因 为 

lru_cache 使 用 字典 存储 结果 ， 而 且 键 根据 调用 时 传 入 的 定位 参数 和 关键 

由 所 以 被 lru_cache 装饰 的 函数 ， 它 的 所 有 参数 都 必须 是 可 散 
| o 


接 下 来 讨论 吸引 人 的 functools,singledispatch 装饰 器 。 
7.8.2 单 分 派 泛 函 数 


假设 我 们 在 开发 一 个 调试 Web 应 用 的 工具 ， 我 们 想 生 成 HIML ， 显 示 不 同 
类 型 的 Python 对 象 。 


我 们 可 能 会 编写 这 样 的 男 数 ; 


import html 


def htmlize(obj): 
content = html.escape(repr (obj) ) 


return '<pre>{}</pre>'.format(content) 


这 个 画 数 适 用 于 任何 Python 类 型 ， 但 是 现在 我 们 想 做 个 扩展 ， 让 它 使 用 特别 
的 方式 显示 某 些 类 型 。 


。 str: 把 内 部 的 换行 符 蔡 换 为 '<br>\n'; 不 使 用 <pre>， 而 是 使 用 


<p> ° 
。 int: 以 十 进 制 和 十 六 进 制 显示 数字 。 
e list: 输出 一 个 HTML 列表 ， 根 据 各 个 元 素 的 类 型 进行 格式 化 。 
我 们 想 要 的 行为 如 示例 7-20 所 示 。 
示例 7-20 生成 HTML 的 htmlize 函数 ， 调 整 了 几 种 对 象 的 输出 


>>> htmlize({1, 2, 3}) @ 

"<pre>{1, 2, 3}</pre>' 

>>> htmlize(abs) 

"<pre><built-in function abs></pre>' 

>>> htmlize('Heimlich & Co.\n- a game') @ 
"<p>Heimlich & Co.<br>\n- a game</p>' 

>>> htmlize(42) © 


"<pre>42 (0x2a)</pre>' 

>>> print(htmlize(['alpha', 66, {3, 2, 1}])) @ 
<ul> 

<li><p>alpha</p></1i> 

<li><pre>66 (0x42)</pre></1li> 

<li><pre>{1, 2, 3}</pre></1li> 

</ul> 


@ 默认 情况 下 ， 在 <pre></pre> 中 显示 HTML 转 义 后 的 对 象 字 符 串 表示 
形式 。 


@ 为 str 对 象 显示 的 也 是 HTML 转 义 后 的 字符 串 表示 形式 ， 不 过 放 在 <p> 
</p> 中 ， 而 且 使 用 <br> 表示 换行 。 


© int 显示 为 十 进 制 和 十 六 进 制 两 种 形式 ， 放 在 <pre></pre> 中 。 
@ 各 个 列表 项 目 根据 各 自 的 类 型 格式 化 ， 束 个 列表 则 演 染 成 HIML 列表 。 


因为 Python 不 文 持 重 载 方法 或 函数 ， 所 以 我 们 不 能 使 用 不 同 的 签名 定义 
htmlize 的 变 体 ， 也 无 法 使 用 不 同 的 方式 处 理 不 同 的 数据 类 型 。 在 Python 


中 ， 一 种 常见 的 做 法 是 把 htmlize 变 成 一 个 分 派 函 数 ， 使 用 一 串 
if/elif/elif， 调 用 专门 的 函数 ， 如 htmlize_str `htmlize_int, 
等 等 。 这 样 不 便于 模块 的 用 户 扩 展 ， 还 显得 笨拙 ， 时 间 一 长 ， 分 派 函 数 
htmlize 会 变 得 很 大 ， 而 且 它 与 各 个 专门 函数 之 间 的 耦合 也 很 基 密 。 


Python 3.4 新 增 的 functools.singledispatch 装饰 器 可 以 把 整体 方案 
拆 分 成 多 个 模块 ， 甚 至 可 以 为 你 无 法 修改 的 类 提供 专门 的 范 数 。 使 用 
@singledispatch 装饰 的 普通 函数 会 变 成 泛 函 数 (generic function) : 根 
T a 以 不 同方 式 执行 相同 操作 的 一 组 函数 。4 具体 做 法 参 
万 不 例 7-21 ° 


4 这 才 称 得 上 是 单 分 派 。 如 果 根 据 多 个 参数 选择 专门 的 函数 ， 那 就 是 多 分 派 了 。 


本 functools.singledispatch 是 Python 3.4 增加 的 ，PyPI 中 的 
Singledispatch 包 可 以 向 后 兼容 Python 2.6 到 Python 3.3 ° 


示例 7-21 singledispatch 创建 一 个 自 定义 的 
htmlize.register 装饰 器 ， 把 多 个 函数 绑 在 一 起 组 成 一 个 泛 画 数 


from functools import singledispatch 
from collections import abc 

import numbers 

import html 


@singledispatch @ 

def htmlize(obj): 
content = html.escape(repr (obj) ) 
return '<pre>{}</pre>'.format(content) 


@htmlize.register(str) @ 

def _(text): © 
content = html.escape(text).replace('\n', '<br>\n') 
return '<p>{0}</p>'.format(content) 


@htmlize.register(numbers.Integral) ©@ 
def _(n): 
return '<pre>{0} (0x{0:x})</pre>'.format(n) 


@htmlize.register(tuple) © 
@htmlize.register(abc.MutableSequence) 
def _(seq): 

inner = '</1i>\n<li>'.join(htmlize(item) for item in seq) 


return '<ul>\n<li>' + inner + '</1i>\n</ul>' 


@ @singledispatch 标记 处 理 object RMI WA o 
@ ZARTU @«base_function».register(«type») 装饰 。 
© 专门 函数 的 名 称 无 关 紧 要 ; _ 是 个 不 错 的 选择 ， 简 单 明 了 。 


O 为 每 个 需要 特殊 处 理 的 类 型 注册 一 个 函数 。numbers .Integral Æ int 
的 虚拟 超 类 。 


O 可 以 县 放 多 个 register 装饰 器 ， 计 同一 个 函数 支持 不 同类 型 。 
只 要 可 能 ， 注 册 的 专门 函数 应 该 处 理 抽象 基 类 (如 numbers.Integral 和 
abc.MutableSequence) ， 不 要 处 理 具体 实现 (如 int F list) 。 这 


样 ， 代 码 支 持 的 兼容 类 型 更 广泛 。 例 如 ，Python 扩展 可 以 子 类 化 
numbers, Integral， 使 用 固定 的 位 数 实现 int 类 型 。 


A 使 用 抽象 基 类 检查 类 型 ， 可 以 让 代码 文 持 这 些 抽象 基 类 现 有 和 未 
来 的 具体 子 类 或 虚拟 子 类 。 抽 象 基 类 的 作用 和 虚拟 子 类 的 概念 在 第 11 


章 讨论 。 


singledispatch 机 制 的 一 个 显著 特征 是 ， 你 可 以 在 系统 的 任何 地 方 和 任 
何 模块 中 注册 专门 画 数 。 如 果 后 来 在 新 的 模块 中 定义 了 新 的 类 型 ， 可 以 轻松 
地 添加 一 个 新 的 专门 画 数 来 处 理 那 个 类 型 。 此 外 ， 你 还 可 以 为 不 是 自己 编写 
的 或 者 不 能 修改 的 类 添加 自 定义 函数 。 


Singledispatch 是 经 过 深思 熟 虑 之 后 才 添 加 到 标准 库 中 的 ， 它 提供 的 特 
性 很 多 ， 这 里 无 法 一 一 说 明 。 这 个 机 制 最 好 的 文档 是 “PEP 443 一 Single- 


dispatch generic functions” ° 


` @singledispatch 不 是 为 了 把 Java 的 那 种 方法 重 载 带 入 
Python 。 在 一 个 类 中 为 同一 个 方法 定义 多 个 重 载 变 体 ， 比 在 一 个 函数 中 
使 用 一 长 串 if/elif/elif/elif 块 要 更 好 。 但 是 这 两 种 方案 都 有 缺 
陷 ， 因 为 它们 让 代码 单元 〈 类 或 函数 ) 承担 的 职责 太 多 。 
@singledispath 的 优点 是 支持 模块 化 扩展 各 个 模块 可 以 为 它 支 持 
的 各 个 类 型 注册 一 个 专门 函数 。 


小 饰 器 是 函数 ， 因 此 可 以 组 合 起 来 使 用 ( 即 ， 可 以 在 已 经 被 装饰 的 函数 上 应 
用 装饰 器 ， 如 示例 7-21 Aras) 。 下 一 节 说 明 其 中 的 原理 。 


7.9” 准 放 装 饰 器 


示例 7-19 演示 了 羞 放 装饰 器 的 方式 ，@lru_cache 应 用 到 @clock 装饰 
fibonacci 得 到 的 结果 上 。 在 示例 7-21 中 ， 模 块 中 最 后 一 个 函数 应 用 了 两 


A @htmlize.register 装饰 器 。 


把 @d1 和 @d2 两 个 装饰 器 按 顺序 应 用 到 f 函数 上 ， 作 用 相当 于 f = 
d1(d2(f)) ° 


也 就 是 说 ， 下 述 代码 : 


print('f') 


f = di(d2(Tf)) 


BRT AWRA ZA, ARRAS T SI LOAA, PAN 
@lru_cache() 和 示例 7-21 F @singledispatch 生成 的 
htmlize.register(«type»)。 下 一 节 说 明 如 何 构建 接受 参数 的 装饰 


Bo 


any ° 


7.10 ”参数 化 装饰 器 


解析 源码 中 的 装饰 器 时 ，Python 把 被 装饰 的 函数 作为 第 一 个 参数 传 给 装饰 器 
函数 。 那 怎么 让 装饰 器 接受 其 他 参数 呢 ? 答案 是 : BEM ids LT) K 
数 ， 把 参数 传 给 它 ， 返 回 一 个 装饰 器 ， 然 后 再 把 它 应 用 到 要 装 饰 的 函数 上 。 
不 明白 什么 意思 ? 当然 。 下 面 以 我 们 见 过 的 最 简单 的 装饰 如 为 例 说 明 :， 示例 
7-22 中 的 register。 


示例 7-22 示例 7-2 中 registration.py 模块 的 删 减 版 ， 这 里 再 次 给 出 是 为 
了 便于 讲解 


registry = [] 


def register(func): 
print('running register(%s)' % func) 
registry.append( func) 
return func 


@register 


def f1(): 
print('running f1()') 


print('running main()') 
print('registry ->', registry) 
f1() 


7.10.1 一 个 参数 化 的 注册 装饰 器 


为 了 便于 启用 或 禁用 register 执行 的 函数 注册 功能 ， 我 们 为 它 提 供 一 个 可 
选 的 active 参数 ， 设 为 False if, AEM BCR IMEEM e 实现 方式 参见 
示例 7-23。 从 概念 上 看 ， 这 个 新 的 register 函数 不 是 装饰 器 ， 而 是 装饰 
项 工 | 夯 数 。 调 用 它 会 返回 真正 的 装 电 器 ， 这 才 征 应 用 到 目标 画 数 上 的 妆 师 
any o 


示例 7-23 ”为 了 接受 参数 ， 新 的 register 装饰 器 必须 作为 函数 调用 


registry = set() @ 
def register(active=True): @ 
def decorate(func): © 
print('running register (active=%s ) ->decorate(%s) ' 
% (active, func)) 
if active: ©@ 
registry.add(func) 
else: 
registry.discard(func) © 


return func © 
return decorate @ 


@register(active=False) ©@ 
def f1(): 
print('running f1()') 


@register() © 
def f2(): 


print('running f2()') 


def f3(): 
print('running f3()') 


O registry 现在 是 一 个 set 对 象 ， 这 样 添 加 和 删除 函数 的 速度 更 快 。 
@ register 接受 一 个 可 选 的 关键 字 参 数 。 
© decorate 这 个 内 部 函数 是 真正 的 装饰 右 ; 注意 ， 它 的 参数 是 一 个 函数 。 


O 只 有 active 参数 的 值 (从 闭 包 中 获取 ) 是 True 时 才 注 册 func e 


日 如果 active RAH, MA func Æ registry 中 ， 那 么 把 它 删除 。 
O decorate 是 装饰 器 ， 必 须 返回 一 个 函数 。 


O register Æ Riia L] K, KERE] decorate。 
© Qregister 工厂 函数 必须 作为 函数 调用 ， 并 且 传 入 所 需 的 参数 。 


© 即使 不 传 入 参数 ，register 也 必须 作为 函数 调用 (@register()) , 
即 要 返回 真正 的 装饰 器 decorate 。 


这 里 的 关键 是 ，register() 要 返回 decorate， 然 后 把 它 应 用 到 被 装饰 的 
函数 上 。 


7-23 中 的 代码 在 registration_param.py 模块 中 。 如 果 导 入 ， 得 到 的 结 
HD: 


>>> import registration_param 
running register(active=False)->decorate(<function f1 at 0x10063c1e0>) 
running register(active=True)->decorate(<function f2 at 0x10063c268>) 


>>> registration_param.registry 
{<function f2 at 0x10063c268>} 


注意 ， 只 有 f2 Be registry 中 ; fa 不 在 其 中 ， 因 为 传 给 register 
装饰 器 工厂 函数 的 参数 是 active=False， 所 以 应 用 到 f1 上 的 decorate 
没有 把 它 添加 到 registry 中 。 


如 果 不 使 用 @ 句法 ， 那 就 要 像 常 规范 数 那样 使 用 register; 若 想 把 ff 添加 
到 registry F, MA f 函数 的 句法 是 register()(f); 不 想 添 加 


(或 把 它 删 除 ) 的 话 ， 句 法 是 register(active=False)(f)。 示 例 7- 
24 演示 了 如 何 把 函数 添加 到 registry 中 ， 以 及 如 何 从 中 删除 函数 。 


示例 7-24 使 用 示例 7-23 中 的 registration_param 模块 


>>> from registration_param import * 

running register(active=False)->decorate(<function f1 at 0x10073c1e0>) 
running register (active=True) ->decorate(<function f2 at 0x10073c268>) 
>>> registry # @ 

{<function f2 at 0x10073c268>} 

>>> register()(f3) #@ 

running register(active=True) ->decorate(<function f3 at 0x10073c158>) 
<function f3 at 0x10073c158> 


>>> registry #® 

{<function f3 at 0x10073c158>, <function f2 at 0x10073c268>} 

>>> register(active=False)(f2) #0 

running register(active=False)->decorate(<function f2 at 0x10073c268>) 
<function f2 at 0x10073c268> 

>>> registry # © 

{<function f3 at 0x10073c158>} 


@ 导入 这 个 模块 时 ，f2 Æ registry ° 

Ə register() 表达 式 返回 decorate， 然 后 把 它 应 用 到 f3 上 。 
@ 前 一 行 把 f3 添加 到 registry 中 。 

@ 这 次 调用 从 registry 中 删除 f2。 


日 确认 registry FRÆ f3 ° 


参数 化 装饰 器 的 原理 相当 复杂 ， 我 们 刚刚 讨论 的 那个 比 大 多 数 都 简单 。 参 数 
化 装饰 器 通 第 会 把 被 闭 饰 的 函数 蔡 换 控 ， 而 且 结 构 上 需要 多 一 层 巾 套 。 接 下 
来 会 探讨 这 种 函数 金字 塔 。 


7.10.2 ”参数 化 clLock 装 饰 器 
本 节 再 次 探讨 Clock 装饰 器 ， 为 它 添 加 一 个 功能 ， 让 用 户 传 入 一 个 格式 字 
符 串 ， 控 制 被 装饰 男 数 的 输出 。 参 见 示例 7-25。 


` 为 了 简单 起 见 ， 示 例 7-25 基于 示例 7-15 中 最 初 实现 的 clock, 
而 不 是 示例 7-17 中 使 用 @functools .wraps 改进 后 的 版 本 ， 因 为 那 
一 版 增加 了 一 层 函 数 。 


示例 7-25  clockdeco_param.py 模块 : BE clock 装饰 器 


import time 


DEFAULT_FMT = '[{elapsed:0.8f}s] {name}({args}) -> {result}' 


def clock(fmt=DEFAULT_FMT): 
def decorate(func): Q 
def clocked(*_args): © 
tO = time.time() 
_result = func(*_args) @ 
elapsed = time.time() - tO 
name = func.__name__ 
args = ', '.join(repr(arg) for arg in _args) © 
result = repr(_result) © 
print(fmt.format(**locals())) @ 
return _result ® 
return clocked © 
return decorate @ 


if _name__ == '__main_': 
@clock( ) 
def snooze(seconds): 


time.sleep(seconds) 


for i in range(3): 
snooze(.123) 


O clock 是 参数 化 装饰 器 工厂 范 数 。 

@ decorate R ERRIME ° 

© clocked 包装 被 装饰 的 函数 。 

@ result 是 被 装饰 的 函数 返回 的 真正 结 


© args Æ clocked 的 参数 ，args 是 用 于 显示 的 字符 串 。 


O result 是 _result 的 字符 串 表示 形式 ， 用 于 显示 。 


o 这 里 使 用 **locals() 是 为 了 在 fmt 中 引用 clocked 的 局 部 变量 。 


@ clocked ZARREK IRINEZ, AE E MIX ENAS KRU EAS 
{Ei ° 


© decorate 返回 clocked ° 


® clock 退回 decorate ° 


@ 在 这 个 模块 中 测试 ， 不 传 入 参数 调用 clock( )， 因 此 应 用 的 装饰 器 使 用 
默认 的 格式 str e 


在 shell 中 运行 示例 7-25， 会 得 到 下 述 结 


$ python3 clockdeco_param.py 
[@.12412500s] snooze(@.123) -> None 
[@.12411904s] snooze(@.123) -> None 


[@.12410498s] snooze(@.123) -> None 


示例 7-26 和 示例 7-27 是 另外 两 个 模块 ， 它 们 使 用 了 clockdeco_param t 
块 中 的 新 功能 ， 随 后 是 两 个 模块 输出 的 结果 。 


示例 7-26 clockdeco_param_demo1.py 


import time 
from clockdeco_param import clock 


@clock('{name}: {elapsed}s') 
def snooze(seconds): 
time.sleep(seconds) 


for i in range(3): 
Snooze( .123) 


示例 7-26 的 输出 : 


$ python3 clockdeco_param_demo1.py 
snooze: 0.12414693832397461s 
snooze: 0.1241159439086914s 
snooze: 0.12412118911743164s 


示例 7-27 clockdeco_param_demo2.py 


import time 
from clockdeco_param import clock 


@clock('{name}({args}) dt={elapsed:0.3f}s') 
def snooze(seconds): 
time.sleep(seconds) 


for i in range(3): 
snooze(.123) 


示例 7-27 的 输出 : 


$ python3 clockdeco_param_demo2.py 
snooze(0.123) dt=0.124s 
Snooze(0.123) dt=0.124s 


snooze(@.123) dt=0.124s 


CAH FER al, ECT ISS aS HBR YT SYA OR o E SE PA AT Te T 
构建 工业 级 装饰 器 的 搁 术 ， 尤 其 是 Graham Dumpleton 的 博客 和 wrapt te 
块 。 


` Graham Dumpleton 和 Lennart Regebro (本 书 的 技术 审 校 之 一 ) 认 

为 ， 装 饰 器 最 好 通过 实现 _ call _ 方法 的 类 实现 ， 不 应 该 像 本 章 的 示 
例 那 样 通过 画 数 实现 。 我 同意 使 用 他 们 建议 的 方式 实现 非 平 凡 的 装饰 妖 
更 好 ， 但 是 使 用 函数 解说 这 个 语言 特性 的 基本 思想 更 易于 理解 。 


7.11 本 章 小 结 


本 章 介绍 了 很 多 基础 知识 ， 虽 然 学 习 之 路 崎 归 不 平 ， 我 还 是 尽 可 能 让 路 途 平 
坦 顺畅 。 毕竟 ， 我 们 已 经 进入 元 编程 领域 了 。 


开始 ， 我 们 先 编写 了 一 个 没有 内 部 函数 的 @register 装饰 器 ， 最 后 ， 我 们 
SCHL T AAV ERE RMS BUC ies @clock( )。 


尽管 注册 装饰 器 在 多 数 情况 下 都 很 简单 ， 但 是 在 高 级 的 Python 框架 中 却 有 用 
武之 地 。 我 们 使 用 注册 方式 对 第 6 章 的 “策略 ”模式 做 了 重 构 。 


BRU Cae EA EW RSD ERA, MRE 
@functools.wraps ERRIMA, Arm, MBM 
可 能 还 会 更 深 ， 比 如 前 面 简 要 介绍 过 的 车 放 装 饰 器 。 


我 们 还 讨论 了 标准 库 中 functools 模块 提供 的 两 个 出 色 的 函数 装饰 需 : 
@lru_cache() 和 @singledispatch。 


若 想 真正 理解 装饰 器 ， 需 要 区 分 导入 时 和 运行 时 ， 还 要 知道 变量 作用 域 、 闭 
包 和 新 增 的 nonlocal 声明 。 掌 握 闭 包 和 nonlocal 不 仅 对 构建 装饰 器 有 
帮助 ， 还 能 协助 你 在 构建 GUI 程序 时 面向 事件 编程 ， 或 者 使 用 回调 处 理 异 步 
I/O ° 


7.12 ”延伸 阅读 


《Python Cookbook (# 3 版 ) 中 文 版 》 (David Beazley 和 Brian K. Jones 
著 ) 的 第 9 章 * 元 编程 ”有 几 个 诀窍 构 建 了 基本 的 装饰 器 和 特别 复杂 的 装饰 
器 。 其 中 ,“9.6 定义 一 个 能 接收 可 选 参数 的 装饰 器 ”一 节 中 的 装饰 器 可 以 作 
为 常规 的 装饰 器 调用 ， 也 可 以 作为 装饰 器 工厂 NAA, Aa @clock BX 
@clock() ° 


Graham Dumpleton 写 了 一 系列 博客 文章 ， 深 入 谢 析 了 如 何 实现 行为 良好 的 闭 
饰 锅 ， 第 一 篇 是 “How You Implemented Your Python Decorator is Wrong”。 他 
在 这 方面 的 深厚 知识 充分 体现 在 在 他 编写 的 wrapt 模块 中 。 这 个 模块 的 作 
用 是 简化 装饰 器 和 动态 函数 包装 器 的 实现 ， 即 使 多 层 装 饰 也 支持 内 省 ， 而 且 
| ee 也 可 以 作为 描述 符 使 用 。 (描述 符 在 本 书 
第 20 章 讨 论 。 


Michele Simionato 开发 了 一 个 包 ， 根 据 文 档 ， 它 则 在 “人 简化 普通 程序 员 使 用 装 
饰 器 的 方式 ， 并 且 通 过 各 种 复杂 的 示例 推广 装饰 器 >”。 这 个 包 是 decorator, 
可 通过 PyPI 安装 。 


Python Decorator Library 维基 页 面 在 Python 刚 添加 装饰 器 这 个 特性 时 就 创建 
了 ， 里 面 有 很 多 示例 。 由 于 那个 页 面 是 几 年 前 开始 编写 的 ， 有 些 技术 已 经 过 
时 了 ， 不 过 仍 是 很 棱 的 灵感 来 源 。 


PEP 443 对 单 分 派 泛 函 数 的 基本 原理 和 细节 做 了 说 明 。Guido van Rossum 很 
久 以 前 (2005 年 3 月 ) 写 的 一 篇 博客 文章 “Five-Minute Multimethods in 
Python” 详 细 说 明了 如 何 使 用 装饰 器 实现 泛 函 数 (也 叫 多 方法 。 他 给 出 的 代 
码 文 持 多 分 派 〈“ 即 根据 多 个 定位 参数 进行 分 派 ) ° Guido 写 的 多 方法 代码 很 
棒 ， 但 那 只 是 教学 示例 。 如 果 想 使 用 现代 的 技术 实现 多 分 派 泛 函 数 ， 并 文 持 
在 生产 环境 中 使 用 ， 可 以 用 Martijn Faassen FRAY Reg ° Martijn 还 是 模型 驱 
动 型 REST 式 Web 框架 Morepath 的 开发 者 。 


Fredrik Lundh 写 的 一 篇 短文 “Closures in Python” 解 说 了 闭 包 这 个 术语 。 


“PEP 3104—Access to Names in Outer Scopes” 说 明了 引入 nonlocal 声明 的 


原因 : 重新 


绑 定 既 不 在 本 地 作用 域 中 也 不 在 全 局 作用 域 中 的 名 称 。 这 份 PEP 


还 概述 了 其 


他 动态 语言 (Perl、Ruby、JavaScript， 等 等 ) 解决 这 个 问题 的 方 


式 ， 以 及 Python 中 可 用 设计 方案 的 优 缺 后 。 


“PEP 227— 
词法 作用 域 。 
准 。 此 外 ， 


择 。 


IEM EEK 
一 等 对 象 
用 。 问 题 是 


Statically Nested Scopes” 更 偏重 于 理论 ， 说 明了 Python 2.1 引入 的 
词法 作用 域 在 这 一 版 里 是 一 种 方案 ， 到 Python 2.2 就 变 成 了 标 
这 份 PEP 还 说 明了 Python 中 财 包 的 基本 原理 和 实现 方式 的 选 


数 当 作 一 等 对 象 的 语言 ， 它 的 设计 者 都 要 面 对 一 个 问题 ， 作 为 
的 函数 在 茶 个 作用 域 中 定义 ， 但 是 可 能 会 在 其 他 作用 域 中 调 
是， 如 何 计算 自 由 变量 ? 首先 出 现 的 最 简单 的 处 理 方 式 是 使 


用 “动态 作用 域 ”。 也 束 是 说 ， 根 据 函 数 调用 所 在 的 环境 计算 自由 变量 
UR Python 使 用 动态 作用 域 ， 不 文 持 闭 包 ， 那 么 avg (与 示例 7-9 类 


似 ) 可 以 


写成 这 样 : 


>>> ### 这 不 是 真实 的 Python 控制 台 会 话 ! ### 
>>> avg = make_averager() 

>>> series = [] # @ 

>>> avg(10) 

10.0 


>>> avg(11) # © 
10 .5 


>>> avg(12) 
11.0 


>>> series = [1] # ® 


@ 使 用 avg 之 前 要 自己 定义 series = []， 因 此 我 们 必须 知道 
averager (在 make_averager 内 部 ) 引用 的 是 一 个 列表 。 


@ 在 青 后 


使 用 series 素 计 要 计 入 平均 值 的 值 。 


日 执行 series = [1] 后 ， 之 前 的 列表 消失 了 。 同 时 计算 两 个 独立 的 
移动 平均 值 时 可 能 会 发 生 这 种 意外 。 


男 数 应 该 是 时 盒 ， 把 实现 隐藏 起 来 ， 不 计 用 户 知道 。 但 是 对 动态 作用 域 
来 说 如 有 果 男 数 使 用 自由 变量 ， 程 序 员 必须 知道 画 数 的 内 部 细节 ， 这 样 


才能 搭建 正确 运行 所 需 的 环境 。 


男 一 方面 ， 动 态 作用 域 易于 实现 ， 这 可 能 就 是 John McCarthy 创建 Lisp 
(第 一 门 把 函数 视 作 一 等 对 象 的 语言 ) 时 采用 这 种 方式 的 原因 。Paul 
Graham 写 的 “The Roots of Lisp” 一 文 对 John McCarthy 关于 Lisp 语言 那 

篇 论文 (“Recursive Functions of Symbolic Expressions and Their 

Computation by Machine, Part I”) 做 了 通俗 易 懂 的 解说 。McCarthy 那 篇 
论文 是 和 贝多 芬 第 九 交 响 曲 一 样 伟大 的 杰作 。Paul Graham 使 用 通俗 易 
懂 的 语言 翻译 了 那 篇 论文 ， 把 数学 原理 转换 成 了 英语 和 可 运行 的 代码 。 


Paul Graham 的 注解 还 指出 动态 作用 域 难以 实现 。 下 面 这 段 文字 引 
Fi “The Roots of Lisp” 一 文 : 


就 连 第 一 个 Lisp 高 阶 函 数 示例 都 因为 动态 作用 域 而 无 法 运行 ， 这 充 
分 证 明了 动态 作用 域 的 危险 性 。McCarthy 在 1960 年 可 能 没有 全 面 
认识 到 动态 作用 域 的 影响 。 动 态 作用 域 在 各 种 Lisp 实现 中 存在 的 时 
间 特 别 长 ， 直 到 Sussman 和 Steele 在 1975 年 开发 出 Scheme 为 止 。 
eval 的 定义 变 得 多 么 复杂 ， 只 是 编译 器 可 能 
难 编写 。 


如 今 ， 词 法 作用 域 已 成 常态 : 根据 定义 函数 的 环境 计算 自由 变量 。 词 法 
作用 域 让 人 更 难 实现 支持 一 等 函数 的 语言 ， 因 为 需要 文 持 闭 包 。 不 过 ， 
人 域 让 代码 更 易于 阅读 。Algol 之 后 出 现 的 语言 大 都 使 用 词法 作 


多 年 来 ，Python 的 lambda 表达 式 不 支持 闭 包 ， 因 此 在 博客 圈 的 函数 式 
编程 极 客 群体 中 ， 这 个 特性 的 名 声 并 不 好 。Python 2.2 (2001 年 12 月 发 
布 ) 修正 了 这 个 问题 ,但 是 博客 圈 的 固有 印象 不 会 轻易 转变 。 自 此 之 
后 ， 仅 仅 由 于 句法 上 的 局 限 ，Lambda 一 直 处 于 稚 众 的 境地 。 


Python 装饰 器 和 装饰 器 设计 模式 

Python 函数 装饰 礁 符 合 Gamma 等 人 在 《设计 模式 : 可 复 用 面 问 对象 软 
件 的 基础 》 一 书 中 对 “装饰 器 ?模式 的 一 般 描述 : “动态 地 给 一 个 对 象 添加 
一 些 额外 的 职责 。 束 扩展 功能 而 言 ， 装 饰 器 模式 比 子 类 化 更 灵活 。” 


在 实现 层面 ，Python 装饰 器 与 "装饰 器 "设计 模式 不 同 ， 但 是 有 些 相似 之 
处 。 


在 设计 模式 中 ，Decorator 和 Component 是 抽象 类 。 为 了 给 具体 组 
件 添加 行为 ， 具 体 装 饰 妖 的 实例 要 包装 具体 组 件 的 实例 。《 设 计 模 式 : 


可 复 用 面 癌 对象 软件 的 基础 》 一 书 是 这 样 说 的 : 


装饰 器 与 它 所 装饰 的 组 件 接口 一 致 ， 因 此 它 对 使 用 该 组 件 的 客户 透 
明 。 它 将 客户 请 求 转发 给 该 组 件 ， 并 且 可 能 在 转发 前 后 执行 一 些 额 
外 的 操作 〈 例 如 绘制 一 个 边框 ) 。 透 明 性 使 得 你 可 以 递归 嵌 套 多 个 
装饰 器 ， 从 而 可 以 添加 任意 多 的 功能 。 GE 115 页 ) 


在 Python 中 ， 装 饰 器 函数 相当 于 Decorator 的 具体 子 类 ， 而 装饰 器 返 
回 的 内 部 函数 相当 于 装饰 器 实例 。 返 回 的 范 数 包装 了 被 装饰 的 范 数 ， 这 
相当 于 “装饰 器 ?设计 模式 中 的 组 件 。 返 回 的 函数 是 透明 的 ， 因 为 它 接 受 
相同 的 参数 ， 符 合 组 件 的 接口 。 返 回 的 函数 把 调用 转发 给 组 件 ， 可 以 在 
转发 前 后 执行 额外 的 操作 。 因 此 ， 前 面 引用 那 段 话 的 最 后 一 句 可 以 改 
成 :“ 透 明 性 使 得 你 可 以 递归 骸 套 多 个 装饰 器 ， 从 而 可 以 添加 任意 多 的 
行为 。” 这 就 是 警 放 装饰 器 的 理论 基础 。 


注意 ， 我 不 是 建议 在 Python 程序 中 使 用 函数 装饰 器 实现 “装饰 冉 ” 模 式 。 
在 特定 情况 下 确实 可 以 这 么 做 ， 但 是 一 般 来 说 ， 实 现 “ 装 饰 器 ”模式 时 最 
好 使 用 类 表示 闭 吧 器 和 要 包装 的 组 件 。 


第 四 部 分 “面向 对 象 惯用 法 


me 对象 引用 、 可 变性 和 垃圾 回 


oe ”日 骑士 用 一 种 忧虑 的 声调 说 ， “让 我 给 合 你 唱 一 首 歌 安慰 你 
soa IO KAY HH OVE: CARER) 。 


E ， 她 试 着 使 自己 感到 有 兴 
Xo 


“不 ， 你 不 明白 ，” 白 骑士 说 ， BRA ETE “ 那 是 人 家 这 么 叫 的 
eee ee ，( 改 编目 第 8 章 “ 这 是 我 


Lewis Carroll 


《爱丽 丝 镜 中 奇遇 记 》 


爱丽 丝 和 日 对 士 为 本 间 要 讨论 的 内 容 定 了 基调 。 本 章 的 主题 是 对 象 与 对 象 名 
称 之 间 的 区 别 。 名 称 不 是 对 象 ， 而 是 单独 的 东西 。 


本 章 先 以 一 个 比喻 说 明 Python 的 变量 : 变量 是 标注 ， 而 不 是 盒子 。 如 果 你 不 
知道 引用 式 变量 是 什么 ， 可 以 像 这 样 对 别人 解释 别名 。 

然后 ， 本 章 讨论 对 象 标 识 、 值 和 别名 等 概念 。 随 后 ， 本 章 会 揭露 元 组 的 一 个 
神奇 特性 : 元 组 是 不 可 变 的， 但 是 其 中 的 值 可 以 改变 ， 之 后 就 引 审 到 浅 复 条 


和 深 复 制 。 接 下 来 的 话题 是 引用 和 函数 参数 : 可 变 的 参数 默认 值 导 致 的 问 
题 ， 以 及 如 何 安 全 地 处 理 函 数 的 调用 者 传 入 的 可 变 参 数 。 


本 章 最 后 一 节 讨 论 垃圾 回收 、del 命令 ， 以 及 如 何 使 用 弱 引 用 “ 记 住 ? 对 象 ， 
而 无 需 对 象 本 身 存 在 。 


本 章 的 内 容 有 点 儿 枯燥 ,但 是 这 些 话题 却 是 解决 Python 程序 中 很 多 不 易 察 觉 
的 bug 的 关键 。 


首先 ， 我 们 要 抛弃 变量 是 存储 数据 的 盒子 这 一 错误 观念 。 
81 ”变量 不 是 盒子 


1997 FAR, RE MIT 学 了 一 门 Java 课程 。Lynn Andrea Stein 教授 (一 位 
获奖 的 计算 机 科学 教育 工作 者 ， 目 前 在 欧 林 工程 学 院 教书 指出， 人 们 经 常 
使 用 “变量 是 盒子 ”这 样 的 比喻 ,但 是 这 有 碍 于 理解 面向 对 象 语言 中 的 引用 式 
变量 。Python 变量 类 似 于 Java 中 的 引用 式 变量 ， 因 此 最 好 把 它们 理解 为 附 
加 在 对 象 上 的 标注 。 


在 示例 8-1 所 示 的 交互 式 控制 台中 ， 无 法 使 用 “变量 是 盒子 ”做 解释 。 图 8-1 
， Python 中 为 什么 不 能 使 用 盒子 比喻 ， 而 便利 贴 则 指出 了 变量 的 正确 
工 rh ° 


示例 8-1 变量 a 和 b 引 用 同一 个 列表 ， 而 不 是 那个 列表 的 副本 


>>> a = [1, 2, 3] 
>>> b= a 

>>> a.append(4) 
>>> b 

[1, 2, 3, 4] 


图 8-1: 如 果 把 变量 想象 为 盒子 ， 那 么 无 法 解释 Python 中 的 赋值 ， 应 该 把 变 
量 视 作 便利 贴 ， 这 样 示例 8-1 中 的 行为 就 好 解释 了 


Stein 教授 还 反复 讲解 了 赋值 方式 。 例 如 讲 到 seesaw 对 象 时 ， 她 会 说 < 把 变量 
s 分 配给 seesaw”， 绝 不 会 说 “把 seesaw 分 配给 变量 s”。 对 引用 式 变量 来 说 ， 
说 把 变量 分 配给 对 象 更 合理 ， 反 过 来 说 就 有 问题 。 毕 竞 ， 对 象 在 赋值 之 前 就 
创建 了 。 示 例 8-2 证 明 赋值 语句 的 右边 先 执 行 。 


示例 8-2 创建 对 象 之 后 才 会 把 变量 分 配给 对 象 


>>> class Gizmo: 
def __init__(self): 
print('Gizmo id: %d' % id(self)) 


>>> x = Gizmo() 
Gizmo id: 4301489152 @ 


>>> y = Gizmo() * 10 @ 
Gizmo id: 4301489432 ® 
Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
TypeError: unsupported operand type(s) for *: 'Gizmo' and ‘int' 
>>> 


>>> dir() @ 
['Gizmo', '__builtins__', '__doc__', '__loader__', '__name_', 
"” package__', '__spec__', 'x'] 


@ 和 输出 的 Gizmo id: ... 是 创建 Gizmo 实例 的 副作用 。 
@ 在 乘法 运算 中 使 用 Gizmo 实例 会 抛 出 异常 。 


© 这 里 表明 ， 在 和 莹 试 求 积 之 前 其 实 会 创建 一 个 新 的 Gizmo 实例 。 


@ 但 是 ， 肯 定 不 会 创建 变量 y， 因 为 在 对 赋值 语句 的 右边 进行 求 值 时 抛 出 了 


A 为 了 理解 Python 中 的 赋值 语句 ， 应 该 始终 先 读 右 边 。 对 象 在 右边 
创建 或 获取 ， 在 此 之 后 左边 的 变量 才 会 绑 定 到 对 象 上 ， 这 就 像 为 对 象 巾 
EPRE o mAT IE ! 
因为 变量 只 不 过 是 标注 ， 所 以 无 法 阻止 为 对 象 贴 上 多 个 标注 。 贴 的 多 个 标 
注 ， 就 是 别名 。 参 见 下 一 他。 


8.2 标识、 相等 性 和 别名 


Lewis Carroll 是 Charles Lutwidge Dodgson 教授 的 笔名 。Carroll 先生 指 的 就 
是 Dodgson 教授 ， 二 者 是 同一 个 人 。 示 例 8-3 用 Python 表达 了 这 个 概念 。 


示例 8-3 charles Ñ lewis 指 代 同 一 个 对 象 


>>> charles = {'name': 'Charles L. Dodgson', 'born': 1832} 
>>> lewis = charles @ 

>>> lewis is charles 

True 

>>> id(charles), id(lewis) @ 


(4300473992, 4300473992) 

>>> lewis['balance'] = 950 © 

>>> charles 

{'name': 'Charles L. Dodgson', 'balance': 950, 'born': 1832} 


@ lewis Æ charles 的 别名 。 

O is 运算 符 和 id 函数 确认 了 这 一 点 。 

© |] lewis 中 添加 一 个 元 素 相 当 于 向 charles 中 添加 一 个 元 素 。 

然而 ， 假 如 有 冒充 者 〈 姑 且 叫 他 Alexander Pedachenko 博士 ) “EF 1832 年 ， 


声称 他 是 Charles L. Dodgson。 这 个 冒充 者 的 证 件 可 能 一 样 ， 但 是 
Pedachenko 博士 不 是 Dodgson 教授 。 这 种 情况 如 图 8-2 所 示 。 


图 8-2: charles fl lewis 绑 定 同一 个 对 象 ，alex 绑 定 另 一 个 具有 相同 内 
容 的 对 象 


示例 8-4 实现 并 测试 了 图 8-2 中 那个 alex 对 象 。 


示例 8-4 alex 5 charles 比较 的 结果 是 相等 ， 但 alex 不 是 
charles 


>>> alex = {'name': 'Charles L. Dodgson', 'born': 1832, 'balance': 


== charles @ 


is not charles © 


@ alex 指 代 的 对 象 与 赋值 给 charles 的 对 象 内 容 一 样 。 


@ 比较 两 个 对 象 ， 结 果 相 等 ， 这 是 因为 dict 类 的 eq_ “方法 就 是 这 样 实 
现 的 。 


© 但 它们 是 不 同 的 对 象 。 这 是 Python 说 明 标识 不 同 的 方式 : a is not 
be 


示例 8-3 体现 了 别名 。 在 那 段 代码 中 ，lewis 和 charles 是 别名 ， 即 两 个 
变量 绑 定 同 一 个 对 象 。 而 alex 不 是 charles 的 别名 ， 因 为 二 者 绑 定 的 是 
不 同 的 对 象 。alex 和 charles 绑 定 的 对 象 上 具有 相同 的 值 (== 比较 的 就 是 
值 ) ， 但 是 它们 的 标识 不 同 。 
Python 语言 参考 手册 中 的 “3.1 Objects, values and types” 一 节 说 道 : 
每 个 变量 都 有 标识 、 类 型 和 值 。 对 象 一 旦 创建 ， 它 的 标识 绝 不 会 变 ; 你 
可 以 把 标识 理解 为 对 象 在 内 存 中 的 地 址 。is 运算 符 比 较 两 个 对 象 的 标 
识 ; id0 函数 返回 对 象 标识 的 整数 表示 。 
对 象 ID 的 真正 意义 在 不 同 的 实现 中 有 上 所 不 同 。 在 CPython 中 ，id( ) 返回 对 
象 的 内 存 地 址 ， 但 是 在 其 他 Python 解释 器 中 可 能 是 别 的 值 。 关 键 是 ，ID 一 
定 是 唯一 的 数值 标注 ， 而 且 在 对 象 的 生命 周期 中 绝 不 会 变 。 
其 实 ， 编 程 中 很 少 使 用 id() 函数 。 标 识 最 常 使 用 is 运算 符 检 查 ， 而 不 是 
直接 比较 ID 。 接 下 来 讨论 is 和 == 的 异同 。 


8.2.1 在 == 和 is 之 间 选 择 
== 运算 符 比 较 两 个 对 象 的 值 (对 象 中 保存 的 数据 ， 而 is 比较 对 象 的 标 


i 
通常 ， 我 们 关注 的 是 值 ， 而 不 是 标识 ， 因 此 Python 代码 中 == 出 现 的 频率 比 
is 高 。 


然而 ， 在 变量 和 单 例 值 之 间 比 较 时 ， 应 该 使 用 js。 目 前 ， 最 常 使 用 is 检查 
变量 绑 定 的 值 是 不 是 None。 下 面 是 推荐 的 写法 : 


x is None 


否定 的 正确 写法 是 : 


x is not None 


is 运算 符 比 == 速度 快 ， 因 为 它 不 能 重 载 ， 所 以 Python 不 用 寻找 并 调用 特 
殊 方 法 ， 而 是 直接 比较 两 个 整数 ID。 而 a == b 是 语法 糖 ， 等 同 于 

a. edq_(b)。 继 承 自 object 的 eq _ 方法 比较 两 个 对 象 的 ID， 结 果 
与 is 一样。 但 是 多 数 内 置 类 型 使 用 更 有 意义 的 方式 覆盖 了 __eq_ 方法， 


会 考虑 对 象 属性 的 值 。 相 等 性 测试 可 能 涉及 大 量 处 理工 作 ， 例 如 ， 比 较 大 型 
集合 或 舱 套 层级 次 的 结构 时 。 


在 结束 对 标识 和 相等 性 的 讨论 之 前 ， 我 们 来 看 看 著名 的 不 可 变 类 型 tuple 
(元 组 ) ， 它 没有 你 想象 的 那么 一 成 不 变 。 
8.2.2 ”元 组 的 相对 不 可 变性 


元 组 与 多 数 Python 集合 〈 列 表 、 字 典 、 集 ， 等 等 ) 一 样 ， 保 存 的 是 对 象 的 引 
用 。 如 果 引 用 的 元 素 是 可 变 的 ， 即 便 元 组 本 身 不 可 变 ， 元 素 依然 可 变 。 也 
就 是 说 ， 元 组 的 不 可 变性 其 实 是 指 tuple 数据 结构 的 物理 内 容 〈 即 保存 的 
引用 ) 不 可 变 ， 与 引用 的 对 象 无 关 。 


1 而 str ` bytes l array array 等 单一 类 型 序列 是 扁平 的 ， 它 们 保存 的 不 是 引用 ， 而 是 在 连续 的 
内 存 中 保存 数据 本 身 (字符 、 字 节 和 数字 ) 。 


示例 8-5 表明 ， 元 组 的 值 会 随 着 引用 的 可 变 对 象 的 变化 而 变 。 元 组 中 不 可 变 
的 是 元 素 的 标识 。 


示例 8-5 ”一 开始 ，t1 和 t2 相等 ， 但 是 修改 t1 中 的 一 个 可 变 元 素 
后 ， 二 者 不 相等 了 


>>> t1 = (1, 2, [30, 40]) @ 
>>> t2 = (1, 2, [30, 40]) @ 
>>> ti == t2 © 

True 

>>> id(t1[-1]) @ 
4302515784 


>>> ti[-1].append(99) © 
>>> t1 

(1, 2, [30, 40, 99]) 

>>> id(t1[-1]) © 
4302515784 

>>> ti = t2 ©@ 

False 


@ t1 不 可 变 , 但 是 t1[-1] 可 变 。 

@ 构建 元 组 t2， 它 的 元 素 与 t1 一样 。 

© 虽然 t1 和 t2 是 不 同 的 对 象 ， 但 是 二 者 相等 一 一 与 预期 相符 。 
@ 查看 t1[-1] 列表 的 标识 。 


© 就 地 修改 t1[-1] 列表 。 
O t1[-1] 的 标识 没 变 ， 只 是 值 变 了 。 
@ 现在 ，t1 Al t2 不 相等 。 


元 组 的 相对 不 可 变性 解释 了 2.6.1 届 的 恋 题 。 这 也 是 有 些 元 组 不 可 散 列 ( 参 
DL 3.1 市 中 的 “什么 是 可 散 列 的 数据 类 型 ”附注 栏 ， 的 原因 。 


复制 对 象 时 ， 相等 性 和 标识 之 间 的 区 别 有 更 深入 的 影响 。 副 本 与 源 对 象 相 
等 ， 但 是 ID 不同。 可 是 ， 如 采 对 象 中 包含 其 他 对 象 ， 那 么 应 该 复制 内 部 对 
象 吗 ? 可 以 共享 内 部 对 象 吗 ? 这 些 问题 没有 唯一 的 答案 。 参 见 下 述 讨论 。 


8.3 ”默认 做 浅 复 制 


(或 多 数 内 置 的 可 变 集合 ) 最 简单 的 方式 是 使 用 内 置 的 类 型 构造 方 
法 。 例 如 


>>> 11 = [3, [55, 44], (7, 8, 9)] 
>>> 12 = list(11) ©@ 

>>> 12 

[3, [55, 44], (7, 8, 9)] 


>>> 12 == 11 @ 
True 
>>> 12 is 11 © 
False 


@ list(11) 创建 11 的 副本 。 
@ 副本 与 源 列 表 相等 。 


但 是 二 者 指 代 不 同 的 对 象 。 对 列表 和 其 他 可 变 序 列 来 说 ， 还 能 使 用 简洁 的 
12 = 11[:] 语句 创建 副本 。 


然而 ， 构 造 方法 或 [:] 做 的 是 浅 复制 〈“ 即 复制 了 最 外 层 容 器 ， 副 本 中 的 元 素 
是 源 容 器 中 元 素 的 引用 ) 。 如 果 所 有 元 素 都 是 不 可 变 的 ， 那 么 这 样 没 有 问 
i, of 还 能 节省 内 存 。 但 是 ， 如 果 有 可 变 的 元 素 ， 可 能 就 会 导致 意 想 不 到 的 问 
题 


在 示例 8-6 中 ， 我 们 为 一 个 包含 另 一 个 列表 和 一 个 元 组 的 列表 做 了 浅 复 制 ， 
然后 做 了 些 修改 ， 看 看 对 引用 RIG H ° 


~I 如 果 你 手头 有 联网 的 电脑 ， 我 强烈 建议 你 在 Python Tutor 网 站 中 
查看 示例 8-6 的 交互 式 动画 。 写 作 本 书 时 ， 无 法 直接 链接 
pythontutor.com 中 准备 好 的 示例 ， 不 过 这 个 工具 很 出 色 ， 因 此 值得 花 点 
时 间 复 制 粘 贴 代码 。 


示例 8-6 ”为 一 个 包含 另 一 个 列表 的 列表 做 浅 复制 ; 把 这 段 代 码 复制 烙 
贴 到 Python Tutor 网 站 中 ， 看 看 动画 效果 


11 = [3, [66, 55, 44], (7, 8, 9)] 
12 = list(11) #0 
11.append(100) #@ 
11[1].remove(55) # ® 
print('l1i:', 11) 

print('12:', 12) 

12[1] += [33, 22] #0 

12[2] += (10, 11) # © 
print('li:', 11) 

print('12:', 12) 


@ 12 © 11 的 浅 复 制 副 本 。 此 时 的 状态 如 图 8-3 所 示 。 


Frames Objects 


Global frame 
1 > 
12 


图 8-3: 示例 8-6 执行 12 = list(11) 赋值 后 的 程序 状态 。11 和 12 指 代 
不 同 的 列表 ， 但 是 二 者 引用 同一 个 列表 [66，55，44] 和 元 组 (7， 8, 


9) (图 表 由 Python Tutor 网 站 生成 ) 
@ 把 100 追加 到 11 中 ， 对 12 没有 影响 。 


© 把 内 部 列表 11[1] 中 的 55 删除 。 这 对 12 有 影响 ， 因 为 12[1] REK 
列表 与 11[1] 是 同一 个 。 


O 对 可 变 的 对 象 来 说 ， 如 12[1] 引用 的 列表 ，+= 运算 符 就 地 修改 列表 。 这 
次 修改 在 11[1] 中 也 有 体现 ， 因 为 它 是 12[1] 的 别名 。 


O 对 元 组 来 说 ，+= 运算 符 创 建 一 个 新 元 组 ， 然 后 重新 绑 定 给 变量 12[2] 。 
这 等 同 于 12[2] = 12[2] + (10, 11)° MA, 11 和 12 中 最 后 位 置 上 
的 元 组 不 是 同一 个 对 象 。 如 图 8-4 所 示 。 

示例 8-6 的 输出 在 示例 8-7 中 ， 对 象 的 最 终 状 态 如 图 8-4 所 示 。 


示例 8-7 示例 8-6 的 输出 


了 44], (7, 8, 9), 100] 
, 44], (7, 8, 9)] 
, 44, 33, 22], (7, 8, 9), 100] 


, 44, 33, 22], (7, 8, 9, 10, 11)] 


Frames Objects 


Global frame list list 


12 


tuple 
2 0 1 2 < a 
加 四 四 四 四 


图 8-4: 11 和 12 的 最 终 状 态 : 二 者 依然 引用 同一 个 列表 对 象 ， 现 在 列表 的 
值 是 [66，44，33，22], 不 过 12[2] += (10, 11) 创建 一 个 新 元 


组 ， 内 容 是 (7，8，9，10，11)， 它 与 11[2] 引用 的 元 组 (7，8，9) 
无 关 (图 表 由 Python Tutor 网 站 生成 ) 


现在 你 应 该 明白 了 ， 浅 复制 容易 操作 ， 但 是 得 到 的 结 采 可 能 并 不 是 你 想 要 
的 。 接 下 来 说 明 如 何 做 深 复 制 。 


为 任意 对 象 做 深 复 制 和 浅 复 制 

浅 复 制 没什么 问题 ， 但 有 时 我 们 需要 的 是 深 复 制 ( 即 副本 不 共享 内 部 对 象 的 
BL me 模块 提供 的 deepcopy 和 copy 函数 能 为 任意 对 象 做 深 复制 
0 浅 复制 。 


为 了 演示 copy() 和 deepcopy( ) 的 用 法 ， 示 例 8-8 定义 了 一 个 简单 的 
类 ，Bus。 这 个 类 表示 运载 乘客 的 校车 ， 在 途中 乘客 会 上 车 或 下 车 。 


示例 8-8 ”校车 乘客 在 途中 上 车 和 下 和 车 


class Bus: 


def _init__(self, passengers=None): 
if passengers is None: 
self.passengers = [] 
else: 
self.passengers = list(passengers) 


def pick(self, name): 
self .passengers.append(name) 


def drop(self, name): 
self .passengers.remove(name ) 


接 下 来 ， 在 示例 8-9 中 的 交互 式 控制 台中 ， 我 们 将 创建 一 个 Bus 实例 
(busi) 和 两 个 副本 ， 一 个 是 浅 复制 副本 (bus2) ， 另 一 个 是 深 复制 副本 
(bus3) ， 看 看 在 bus1 有 学 生 下 车 后 会 发 生 什么 。 


示例 8-9 使 用 copy 和 deepcopy 产生 的 影响 


>>> import copy 

>>> busi Bus(['Alice', 'Bill', 'Claire', 'David']) 
>>> bus2 copy.copy(bus1) 

>>> bus3 = copy.deepcopy(bus1) 

>>> id(bus1), id(bus2), id(bus3) 

(4301498296, 4301499416, 4301499752) @ 

>>> bus1.drop('Bill') 

>>> bus2.passengers 


['Alice', 'Claire', 'David' 

>>> id(busi.passengers), id(bus2.passengers), id(bus3.passengers) 
(4302658568, 4302658568, 4302657800) ® 

>>> bus3.passengers 

['Alice', 'Bill', 'Claire', 'David'] @ 


@ 使 用 copy 和 deepcopy， 创 建 3 个 不 同 的 Bus 实例 。 
Ə busi 中 的 'Bil1' 下 车 后 ，bus2 中 也 没有 他 了 。 


@ 审查 passengers 属性 后 发 现 ，bus1 和 bus2 共享 同一 个 列表 对 象 ， 
为 bus2 是 busi 的 浅 复制 副本 。 


O bus3 是 busi 的 深 复 制 副 本 ， 因 此 它 的 passengers 属性 指 代 另 一 个 列 
表 。 


注意 ， 一 般 来 说 ， 深 复制 不 是 件 简单 的 事 。 如 果 对 象 有 循环 引用 ， 那 么 这 个 
朴素 的 算法 会 进入 无 限 循 环 。deepcopy 函数 会 记 住 已 经 复制 的 对 象 ， 因 此 
能 优雅 地 处 理 循环 引用 ， 如 示例 8-10 所 示 。 


示例 8-10 ”循环 引用 : b 引用 a， 然后 追加 到 a P; deepcopy 会 想 办 
法 复制 a 


>>> a = [10，20] 
>>> b = [a, 30] 

>>> a.append(b) 

>>> a 


[10, 20, [[...], 30]] 

>>> from copy import deepcopy 
>>> c = deepcopy(a) 

>>> C 

[10, 20, [[...], 30]] 


此 外 ， 深 复制 有 时 可 能 太 深 了 。 例 如 ， 对 象 可 能 会 引用 不 该 复制 的 外 部 资源 
或 单 例 值 。 我 们 可 以 实现 特殊 方法 _copy_() 和 deepcopy _(), 控 
制 copy 和 deepcopy 的 行为 ， 详 情 参 见 copy 模块 的 文档 。 


通过 别名 共享 对 象 还 能 解释 Python 中 传递 参数 的 方式 ， 以 及 使 用 可 变 类 型 作 
为 参数 默认 值 引起 的 问题 。 接 下 来 讨论 这 些 问题 。 


8.4 ”图 数 的 参数 作为 引用 时 


Python 唯一 支持 的 参数 传递 模式 是 共享 传 参 (call by sharing) 。 多 数 面向 对 
象 语言 都 采用 这 一 模式 ， 包 括 Ruby ` Smalltalk 和 Java (Java 的 引用 类 型 是 
这 样 ， 基 本 类 型 按 值 传 参 ) 。 


共享 传 参 指 函 数 的 各 个 形式 参数 获得 实 参 中 各 个 引用 的 副本 。 也 就 是 说 ， 
数 内 部 的 形 参 是 实 参 的 别名 。 


这 种 方案 的 结果 是 ， 画 数 可 能 会 修改 作为 参数 传 入 的 可 变 对 象 ， 但 是 无 法 修 
改 那些 对 象 的 标识 即 不 能 把 一 个 对 象 蔡 换 成 男 一 个 对 象 )。 ANB 8-11 中 有 
个 简单 的 画 数 ， 它 在 参数 上 调用 += 运算 符 。 分 别 把 数字 、 列 表 和 元 组 传 给 
那个 函数 ， 实 际 传 入 的 实 参 会 以 不 同 的 方式 受到 影响 。 


示例 8-11 画 数 可 能 会 修改 接收 到 的 任何 可 变 对 象 


>>> def f(a, b): 
<n at=b 
return a 


2, 3, 4], [3, 4]) 
= (10, 20) 
= (30, 40) 
, U) 
(10, 20, 30, 40) 
>>> t, u © 
((10, 20), (30, 40)) 


@ 数字 x 没 变 。 

@ Na Bl ° 

© 元 组 t 没 变 。 

与 贸 数 参数 相关 的 男 一 个 问题 是 使 用 可 变 值 作为 默认 值 ， 下 一 节 会 讨论 。 
8.4.1 不 要 使 用 可 变 类 型 作为 参数 的 默认 值 


可 选 参数 可 以 有 默认 值 ， 这 是 Python 范 数 定义 的 一 个 很 棱 的 特性 ， 这 样 我 们 
的 API 在 进化 的 同时 能 保证 向 后 兼容 。 然 而 ， 我 们 应 该 避免 使 用 可 变 的 对 象 
作为 参数 的 默认 值 。 


下 面 在 示例 8-12 中 说 明 这 个 问题 。 我 们 以 示例 8-8 中 的 Bus 类 为 基础 定义 
一 个 新 类 ，HauntedBus， 然 后 修改 init_ 方法。 这 一 次 ， 
passengers 的 默认 值 不 是 None， 而 是 [] ， 这 样 就 不 用 像 之 前 那样 使 用 
if 判断 了 。 这 个 “聪明 的 举动 * 会 让 我 们 陷入 麻烦 。 


示例 8-12 一 个 简单 的 类 ， 说 明 可 变 默 认 值 的 危险 


class HauntedBus: 


Wu 受 幽 灵 乘 客 折 磨 的 校车 "0 


def _ init__(self, passengers=[]): @ 
self.passengers = passengers @ 


def pick(self, name): 
self.passengers.append(name) © 


def drop(self, name): 
self .passengers.remove(name ) 


@ WRIA passengers 参数 ， 使 用 默认 绑 定 的 列表 对 象 ， 一 开始 是 空 
列表 。 


@ 这 个 赋值 语句 把 self .passengers 变 成 passengers 的 别名 ， 而 没有 
fA passengers 参数 时 ， 后 者 又 是 默认 列表 的 别名 。 


© # self.passengers 上 调用 .remove() 和 .append() 方法 时 ， 修 
改 的 其 实 是 默认 列表 ， 它 是 函数 对 象 的 一 个 属性 


HauntedBus 的 诡异 行为 如 示例 8-13 所 示 。 
示例 8-13 备 受 幽灵 乘客 折磨 的 校车 


>>> busi = HauntedBus(['Alice', 'Bill']) 
>>> busi.passengers 

['Alice', 'Bill'] 

>>> busi.pick('Charlie' ) 

>>> bus1.drop('Alice') 

>>> busi.passengers @ 

['Bill', 'Charlie'] 

>>> bus2 = HauntedBus() @ 


>>> bus2.pick('Carrie' ) 
>>> bus2.passengers 
['Carrie' ] 

>>> bus3 = HauntedBus() ® 
>>> bus3.passengers @ 
['Carrie' ] 

>>> bus3.pick('Dave') 

>>> bus2.passengers © 


['Carrie', 'Dave'] 
>>> bus2.passengers is bus3.passengers © 
True 


>>> busi.passengers @ 
['Bill', 'Charlie'] 


@ 目前 没什么 问题 ，bus1 没有 出 现 异常 。 


@ 一 开始 ，bus2 是 空 的 ， 因 此 把 默认 的 空 列表 赋值 给 


self.passengers ° 

© bus3 一 开始 也 是 空 的 ， 因 此 还 是 赋值 默认 的 列表 。 
O 但 是 默认 列表 不 为 空 ! 

© 登 - bus3 的 Dave 出 现在 bus2 中 。 


O 问题 是 ，bus2 .passengers Ñ bus3.passengers 指 代 同一 个 列表 。 


© {E bus1.passengers 是 不 同 的 列表 。 


问题 在 于 ， 没 有 指定 初始 乘客 的 HauntedBus 实例 会 共享 同一 个 乘客 列 
表 (a) 


这 种 问题 很 难 发 现 。 如 示例 8-13 所 示 ， 实 例 化 HauntedBus 时 ， 如 果 传 入 
乘客 ， 会 按 预期 运作 。 但 是 不 为 HauntedBus 指定 乘客 的 话 ， 奇 怪 的 事 就 
发 生 了 ， 这 是 因为 self.passengers 变 成 了 passengers 参数 默认 值 的 
别名 。 出 现 这 个 问题 的 根源 是 ， 默 认 值 在 定义 函数 时 计算 〈 通 常 在 加 载 模块 
时 ) ， 因 此 默认 值 变 成 了 函数 对 象 的 属性 。 因 此 ， 如 果 默 认 值 是 可 变 对 象 ， 
而 且 修改 了 它 的 值 ， 那 么 后 续 的 函数 调用 都 会 受到 影响 。 


运行 示例 8-13 中 的 代码 之 后 ， 可 以 审查 HauntedBus.__init__ WR, @ 
看 它 的 __defaults _ 属 性 中 的 那些 幽灵 学 生 : 


>>> dir(HauntedBus.__init__) # doctest: +ELLIPSIS 
[' annotations ', '_ call ', ..., '_ defaults ', ...] 


>>> HauntedBus. init . defaults _ 
(['Carrie', 'Dave'],) 


后 ， 我 们 可 以 验证 bus2.passengers 是 一 个 别名 ， 它 绑 定 到 


HauntedBus. init . defaults _ 属性 的 第 一 个 元 素 上 : 
>>> HauntedBus.__init__.__defaults__[0] is bus2.passengers 
True 


可 变 默认 值 导致 的 这 个 问题 说 明了 为 什么 通常 使 用 None 作为 接收 可 变 值 的 
参数 的 默认 值 。 在 示例 8-8 中 ，__ init_ 方法 检查 passengers 参数 的 
值 是 不 是 None， 如 果 是 就 把 一 个 新 的 空 列表 冉 值 给 self.passengers。 
下 一 三 会 说 明 ， 如 有 果 passengers 不 是 None， 正 确 的 实现 会 把 
passengers 的 副本 赋值 给 seLlf,passengers。 下 面 详解 。 


8.4.2 ”防御 可 变 参 数 
a FRE A REGU A BBA, MARAZ RA ee Bae AWE 


例如 ， 如 采 函 数 接收 一 个 字典 ， 而 且 在 处 理 的 过 程 中 要 修改 它 ， 那 么 这 个 副 
作用 要 不 要 体现 到 函数 外 部 ?具体 情况 具体 分 析 。 这 其 实 需 要 画 数 的 编 5H 
和 调用 方 达成 共识 。 


在 本 章 最 后 一 个 校车 示例 中 ，TwilightBus 实例 与 客户 共享 乘客 列表 ， 这 
会 产生 意料 之 外 的 结果 。 在 分 析 实 现 之 前 ， 我 们 先 从 客户 的 角度 看 看 
TwilightBus 类 是 如 何 工 作 的 。 


示例 8-14 从 TwilightBus 下 车 后 ， 乘 客 消 失 了 


>>> basketball_team = ['Sue', 'Tina', 'Maya', 'Diana', 'Pat'] @ 
>>> bus = TwilightBus(basketball_team) @ 

>>> bus.drop('Tina') © 

>>> bus.drop('Pat') 

>>> basketball_team @ 


['Sue', 'Maya', 'Diana'] 


@ basketball_team 中 有 5 个 学 生 的 名 字 。 
@ 使 用 这 队 学 生 实 例 化 TwilightBus ° 
© 一 个 学 生 从 bus 下 车 了 ， 接 着 又 有 一 个 学 生 下 车 了 。 


@ 下 车 的 学 生 从 篮球 队 中 消失 了 ! 


TwilightBus 违反 了 设计 接口 的 最 佳 实践 ， 即 “最 少 惊讶 原则 ”。 学 生 从 校 
车 中 下 车 后 ， 她 的 名 字 就 从 篮球 队 的 名 单 中 消失 了 ， 这 确实 让 人 惊讶 。 


示例 8-15 是 TwilightBus 的 实现 ， 随 后 解释 了 出 现 这 个 问题 的 原因 。 
示例 8-15 一 个 简单 的 类 ， 说 明 接 受 可 变 参数 的 风险 


class TwilightBus: 
""" 让 乘客 销声匿迹 的 校车 """ 


def _ init__(self, passengers=None): 
if passengers is None: 
self.passengers = [] @ 
else: 
self.passengers = passengers @ 


def pick(self, name): 
self .passengers.append(name) 


def drop(self, name): 
self.passengers.remove(name) ® 


@ 这 里 谨慎 处 理 ， 当 passengers 4 None 时 ， 创 建 一 个 新 的 空 列 表 。 


@ 然而 ， 这 个 赋值 语句 把 self .passengers Z passengers 的 别名 ， 
而 后 者 是 传 给 init_ ”方法 的 实 参 〈 即 示例 8-14 中 的 
basketball_team) 的 别名 。 


© # self.passengers 上 调用 .remove() #1 .append() 方法 其 实 会 
修改 传 给 构造 方法 的 那个 列表 。 


这 里 的 问题 是 ， 校 车 为 传 给 构造 方法 的 列表 创建 了 别名 。 正 确 的 做 法 是 ， 校 
车 自己 维护 乘客 列表 。 修 正 的 方法 很 简单 : Æ init 中 , RA 
passengers 参数 时 ， 应 该 把 参数 值 的 副本 赋值 给 self.passengers， 
像 示例 8-8 中 那样 做 (8.3 $) 。 


def _ init__(self, passengers=None): 
if passengers is None: 
self.passengers = [] 
else: 


self.passengers = list(passengers) @ 


@ 创建 passengers 列表 的 副本 ; 如 果 不 是 列表 ， 束 把 它 转换 成 列表 。 


在 内 部 像 这 样 处 理 乘 客 列表 ， 就 不 会 影响 初始 化 校车 时 传 入 的 参数 了 。 此 
外 ， 这 种 处 理 方式 还 更 灵活 : ME, RA passengers 参数 的 值 可 以 是 元 
组 或 任何 其 他 可 迭代 对 象 ， 例 如 set 对 象 ， 甚 至 数据 库 查 询 结果 ， 因 为 
List 构造 方法 接受 任何 可 迭代 对 象 。 自 己 创 建 并 管理 列表 可 以 确保 支持 所 
需 的 0 和 -append() 操作 ， 这 样 .pick() 和 .drop() 方法 才 
能 正常 运作 。 


A 除非 这 个 方法 确实 想 修改 通过 参数 传 入 的 对 象 ， 否 则 在 类 中 直接 
把 参数 赋值 给 实例 变量 之 前 一 定 要 三 思 ， 因 为 这 样 会 为 参数 对 象 创 建 别 
名 。 如 有 果 不 确定 ， 那 束 创 建 副本 。 这 样 客户 会 少 些 麻烦 。 


8.5 del 和 垃圾 回收 


anne 然而 ， 无 法 得 到 对 象 时 ， 可 能 会 被 当 作 垃圾 回 


一 一 Python 语言 参考 手册 中 “Data Model” 一 章 


del 语句 删除 名 称 ， 而 不 是 对 象 。del 命令 可 能 会 导致 对 象 被 当 作 垃圾 回 
收 ， 但 是 仅 当 删除 的 变量 保存 的 是 对 象 的 最 后 一 个 引用 ， 或 者 无 法 得 到 对 象 
时 。” 重 者 绑 定 也 可 能 会 导致 对 象 的 引用 数量 归 零 ， 导 致 对 象 被 销 嗓 。 


“如 果 两 个 对 象 相 互 引用 ， 像 示例 8-10 那样 ， 当 它们 的 引用 只 存在 二 者 之 间 时 ， 垃 圾 回收 程序 会 判定 
它们 都 无 法 获 了 到， 进而 把 它们 都 销毁 。 


Ry 有 个 del _ 特殊 方法 ， 但 是 它 不 会 销毁 实例 ， 不 应 该 在 代码 
中 调用 。 即 将 销毁 实例 时 ，Python 解释 器 会 调用 _ del _ 方法 ， 给 实 
例 最 后 的 机 会 ， 释 放 外 部 资源 。 上 自己 编写 的 代码 很 少 需要 实现 

_ del _ 代码 ， 有 些 Python 新 手 会 花 时 间 实 现 ， 但 却 吃力 不 讨好 ， 
为 _del _ 很 难 用 对 。 话 情 参 见 Python 语言 参考 手册 中 “Data 
Model” 一 章 中 __del _ 特殊 方法 的 文档 。 


在 CPython 中 ， 世 圾 回收 使 用 的 主要 算法 是 引用 计数 。 实 际 上 ， 每 个 对 象 都 
会 统计 有 多 少 引 用 指向 自己 。 当 引用 计数 归 零 时 ， 对 象 立即 就 被 销毁 : 
CPython 会 在 对 象 上 调用 del 方法 (如 有 果 定义 了 ) ， 然 后 释放 分 配给 
对 象 的 内 存 。CPython 2.0 增加 了 分 代 垃 圾 回收 算法 ， 用 于 检测 引用 循环 中 


涉及 的 对 象 组 一 一 如 果 一 组 对 象 之 间 全 是 相互 引用 ， 即 使 再 出 色 的 引用 方式 

会 导致 组 中 的 对 象 不 可 获取 。Python 的 其 他 实现 有 更 复杂 的 垃圾 回收 程 
序 ， 而 且 不 依赖 引用 计数 ， 这 意味 着 ， 对 象 的 引用 数量 为 零 时 可 能 不 会 立即 
调用 del _ 方法 。A. Jesse Jiryu Davis 写 的 “PyPy, Garbage Collection, and 
a Deadlock” 一 文 对 __del _ 方法 的 恰当 用 法 和 不 当 用 法 做 了 讨论 。 


为 了 演示 对 象 生命 结束 时 的 情形 ， 示 例 8-16 使 用 weakref.finalize 注 
册 一 个 回调 函数 ， 在 销毁 对 象 时 调用 。 


示例 8-16 ”没有 指向 对 象 的 引用 时 ， 监 视 对 象 生命 结 束 时 的 情形 


>>> import weakref 

>>> si = {1, 2, 3} 

>>> s2 = s1 © 

>>> def bye(): © 

print('Gone with the wind...') 


>>> ender = weakref.finalize(si, bye) © 
>>> ender.alive @ 


>>> ender.alive © 
True 

>>> s2 = 'spam' © 
Gone with the wind... 
>>> ender.alive 


@ sl 和 s2 古 别 名 ， 指 向 同一 个 集合 ，{1，2，3}。 


s a a 否则 会 有 一 个 指向 对 象 的 


© 在 s1 引用 的 对 象 上 注册 bye 回调 。 
O 调用 finalize 对 象 之 前 ，.alive 属性 的 值 为 True。 
© 如 前 所 述 ，del 不 删除 对 象 ， 而 是 删除 对 象 的 引用 。 


@ 重新 绑 定 最 后 一 个 引用 s2， 让 {1, 2, 3} 无 法 获 了 到。 对 象 被 销毁 了 ， 
调用 了 bye 回调 ，ender ,alive 的 值 变 成 了 False。 


示例 8-16 的 目的 是 明确 指出 del 不 会 删除 对 象 ， 但 是 执行 del 操作 后 可 能 
会 导致 对 象 不 可 获取 ， 从 而 被 删除 。 


你 可 能 觉得 奇怪 ， 为 什么 示例 8-16 中 的 {1, 2, 3) 对 象 被 销毁 了 ? 毕竟 ， 
我 们 把 si 引用 传 给 finalize 函数 了 ， 而 为 了 监控 对 和 象 和 调用 回调 ， 必 须 
要 有 引用。 这 是 因为 ,， finalize 持 有 {1, 2, 3} 的 弱 引 用 ， 参 见 下 一 
T o 


8.6” 弱 引用 

正 是 因为 有 引用 ， 对 象 才 会 在 内 存 中 存在 。 当 对 象 的 引用 数量 归 零 后 ， 垃 圾 
回收 程序 会 把 对 象 销毁 。 但 是 ， 有 时 需要 引用 对 象 ， 而 不 让 对 象 存在 的 时 间 
超过 所 需 时 间 。 这 经 常用 在 缓存 中 。 


弱 引 用 不 会 增加 对 象 的 引用 数量 。 引 用 的 目标 对 象 称 为 所 指 对 象 
(referent) 。 因 此 我 们 说 ， 弱 引用 不 会 妨碍 所 指 对 象 被 当 作 垃圾 回收 。 


弱 引 用 在 缓存 应 用 中 很 有 用 ， 因 为 我 们 不 想 仅 因为 被 缓存 引用 着 而 始终 保存 
缓存 对 象 。 


示例 8-17 展示 了 如 何 使 用 weakref .ref 实例 获取 所 指 对 象 。 如 果 对 象 存 
在 ， 调 用 弱 引 用 可 以 获取 对 象 ， 否则 返回 None。 


A 示例 8-17 是 一 个 控制 台 会 话 ，Python 控制 台 会 自动 把 “变量 绑 定 
到 结果 不 为 None 的 表达 式 结果 上 “。 这 对 我 想 演示 的 行为 有 影响 ， 不 过 
却 凸 显 了 一 个 实际 问题 : 微观 管理 内 存 时 ， 往 往 会 得 到 意外 的 结果 ， 
为 不 明显 的 隐 式 赋值 会 为 对 象 创 建新 引用 。 控 制 台 中 的 _ 变量 是 一 例 。 
调用 跟踪 对 象 也 常 导致 意料 之 外 的 引用 。 


示例 8-17 弱 引 用 是 可 调用 的 对 象 ， 返 回 的 是 被 引用 的 对 象 ， 如 果 所 指 
对 象 不 存在 了 ， 返 回 None 


>>> import weakref 

>>> a_set = {0, 1} 

>>> wref = weakref.ref(a_set) @ 

>>> wref 

<weakref at 0x100637598; to 'set' at 0x100636748> 
>>> wref() @ 

{0, 1} 

>>> a_set = {2, 3, 4} ® 

>>> wref() @ 

{0, 1} 


>>> wref() is None © 


False 
>>> wref() is None © 
True 


@ 创建 弱 引 用 对 象 wref， 下 一 行 审 查 它 。 


@ 调用 wref( ) 返回 的 是 被 引用 的 对 象 ，{9， 1}。 因 为 这 是 控制 台 会 话 ， 
所 以 {0, 1} SAREA _ 变量 。 


@ a_set 不 再 指 代 {0, 1 集合 ， 因 此 集合 的 引用 数量 减少 了 。 但 是 _ 变 
量 仍然 指 代 它 。 


@ 调用 wref() 依旧 返回 {0，1}。 


© 计算 这 个 表达 式 时 ，{0，1} 存在 ， 因 此 wref() 不 是 None。 但 是 ， 随 
后 _， 绑 定 到 结果 值 False。 现 在 {0, 1} 没有 强 引 用 了 。 


O 因为 {0，1} 对 象 不 存在 了 ， 所 以 wref( ) 返回 None。 


weakref 模块 的 文档 指出 ，weakref , ref 类 其 实 是 低层 接口 ， 供 高 级 用 途 
使 用 ， 多 数 程序 最 好 使 用 weakref 集合 和 finalize。 也 就 是 说 ， 应 该 使 
用 WeakKeyDictionary、WeakValueDictionary、WeakSet 和 
finalize 《在 内 部 使 用 弱 引 用 ) ， 不 要 自己 动手 创建 并 人 处理 

weakref .ref 实例 。 我 们 在 示例 8-17 中 那么 做 是 希望 借助 实际 使 用 
weakref.ref 来 褪去 它 的 神秘 色彩 。 但 是 实际 上 ， 多 数 时 候 Python 程序 都 
使 用 weakref 集合 。 


下 一 节 简 要 讨论 weakref 集合 。 


8.6.1 WeakValueDictionary 简 介 


WeakValueDictionary 类 实现 的 是 一 种 可 变 映 射 ， 里 面 的 值 是 对 象 的 弱 
引用 。 被 引用 的 对 象 在 程序 中 的 其 他 地 方 被 当 作 垃 圾 回收 后 ， 对 应 的 键 会 

BM WeakValueDictionary 中 删除 。 因 此 , WeakValueDictionary 
经 第 用 于 缓存 。 


我 们 对 WeakValueDictionary 的 演示 受 到 来 目 瑞 国 六 人 喜剧 团体 Monty 
Python 的 经 典 短 剧 《奶酪 店 》 的 启发 ， 在 那 出 短 剧 里 ， 客 户 问 了 40 多 种 奶 
酷 ， 包 括 切 达 干 酶 和 马 苏 里 拉 奶 酪 ， 但 是 都 没有 货 。5 


*cheeseshop. python . org 还 是 PyPI (Python Package Index 软件 仓库 ) 的 只 始 里 面 什么 
也 没有 。 写 作 本 书 时 ，Python Cheese Shop 中 有 41 426 个 包 。 还 不 错 ， 但 是 与 有 131 000 个 模块 的 
CPAN r nye Perl Archive Network) 相 比 ， 还 差 得 远 。 所 有 动 AEF AEKA CPAN 中 


示例 8-18 实现 一 个 简单 的 类 ， 表 示 各 种 奶 酷 。 
示例 8-18 Cheese 有 个 kind 属性 和 标准 的 字符 串 表 示 形 式 


class Cheese: 


def _ init__(self, kind): 
self.kind = kind 


def _repr_ (self): 
return 'Cheese(%r)' % self.kind 


在 示例 8-19 中 ， 我 们 把 catalog lt 
WeakValueDictionary 实现 的 stock "F ° m, WBE catalog 后 ， 
stock 中 只 剩 下 一 种 奶酪 了 。 你 知道 为 什么 帕 尔 马 干 栈 (Parmesan) 比 其 他 
奶酪 保存 的 时 间 长 吗 ? 《代码 后 面 的 提示 中 有 管 案 。 


4 帕尔马 干酪 在 工厂 中 至 少 要 存储 一 年 ， 因 此 它 比 其 他 新 鲜 奶 酷 的 保存 时 间 长 。 但 是 ， 这 不 是 我 们 想 
要 的 管 案 。 


示例 8-19 MZ: “你 们 店 里 到 底 有 没有 奶 酷 ? ” 


>>> import weakref 

>>> stock = weakref.WeakValueDictionary() @ 

>>> catalog = [Cheese('Red Leicester'), Cheese('Tilsit'), 
i dies Cheese('Brie'), Cheese('Parmesan' ) ] 


>>> for cheese in catalog: 
stock[cheese.kind] = cheese @ 


>>> sorted(stock.keys()) 

['Brie', 'Parmesan', 'Red Leicester', 'Tilsit'] © 
>>> del catalog 

>>> sorted(stock.keys()) 

['Parmesan'] @ 

>>> del cheese 

>>> sorted(stock.keys()) 


[] 


@ stock Æ WeakValueDictionary 实例 。 


@ stock 把 奶酪 的 名 称 映射 到 catalog 中 Cheese 实例 的 弱 引 用 上 ° 
© stock 是 完整 的 。 


© 删除 catalog 之 后 ，stock 中 的 大 多 数 奶 酷 都 不 见 了 ， 这 是 
WeakValueDictionary 的 预期 行为 。 为 什么 不 是 全 部 呢 ? 


A 临时 变量 引用 了 对 象 ， 这 可 能 会 导致 该 变量 的 存在 时 间 比 预期 
长 。 通 党 ， 这 对 局 部 变量 来 说 不 是 问题 ， 因 为 它们 在 函数 返回 时 会 被 销 
欧 。 但 是 在 示例 8-19 中 ，for 循环 中 的 变量 cheese TERZE, KR 
非 显 式 删 除 ， 否 则 不 会 消失 。 


与 WeakValueDictionary 对 应 的 是 WeakKkeyDictionary， 后 者 的 键 
是 弱 引 用 。weakref .WeakKeyDictionary 的 文档 指出 了 一 些 可 能 的 用 
途 : 


(WeakKeyDictionary 实例 ) 可 以 为 应 用 中 其 他 部 分 拥有 的 对 象 附 
wae ETC Ha IT BUA IRE ° ONE tJ HEV APRA ARIE 


weakref 模块 还 提供 了 WeakSet 类 ， 按 照 文 档 的 说 明 ， 这 个 类 的 作用 很 简 

单 : “保存 元 素 弱 引用 的 集合 类 。 元 素 没 有 强 引 用 时 ， 集 合 会 把 它 删 除 。” 如 

果 一 个 类 需要 知道 所 有 实例 ， 一 种 好 的 方案 是 创建 一 个 WeakSet 类 型 的 类 

属性 ， 保 存 实例 的 引用 。 如 有 果 使 用 第 规 的 set ， 实 例 永 远 不 会 被 垃圾 回收 ， 

人 而 类 存在 的 时 间 与 Python 进程 一 样 长 ， 除 非 显 式 
| 除 类 。 


以 及 一 般 的 弱 引 用 ， 能 处 理 的 对 象 类 型 有 限 。 参 见 下 一 和 的 说 
HH o 


8.6.2” 弱 引用 的 局 限 


不 是 每 个 Python 对 象 都 可 以 作为 弱 引 用 的 目标 《或 称 所 指 对 象 ) 。 基 本 的 
list 和 dict 实例 不 能 作为 所 指 对 象 ， 但 是 它们 的 子 类 可 以 轻松 地 解决 这 


个 问题 : 


class MyList(list): 
"""ListHFR, SEGA LIVE SES | 


m 


J g H 标 " Wit 


a_list = MyList(range(10) ) 


# a_list 可 以 作为 弱 引 用 的 目标 


wref_to a list = weakref.ref(a_list) 


set 实例 可 以 作为 所 指 对 象 ， 因 此 实例 8-17 才 使 用 set 实例 。 用 户 定义 的 
类 型 也 没 问题 ， 这 就 解释 了 示例 8-19 中 为 什么 使 用 那个 简单 的 Cheese 

类 。 但 是 ，int 和 tuple 实例 不 能 作为 弱 引 用 的 目标 ， 甚 至 它们 的 子 类 也 
不 行 。 


这 些 局 限 基 本 上 是 CPython 的 实现 细 方 ， 在 其 他 Python 解释 右 中 情况 可 能 不 
一 样 。 这 些 局 限 是 内 部 优化 导致 的 结果 ， 下 一 节 会 以 其 中 几 个 类 型 为 例 讨论 


(完全 选读 ) 


8.7 Python 对 不 可 变 类 型 施加 的 把 戏 


和 你 可 以 放心 味 过 本 节 。 这 里 讨论 的 是 Python AEMT, X 
Python 用 户 来 说 没 那么 重要 。 这 些 细节 是 CPython 核心 开发 者 走 的 捷径 
和 做 的 优化 措施 ， 对 这 门 语言 的 用 户 而 言 无 需 了 解 ， 而 且 那 些 细节 对 其 
他 Python 实现 可 能 没 用 ，CPython 未 来 的 版 本 可 能 也 不 会 用 。 尽 管 如 
此 ， 在 学 习 别 名 和 副本 的 过 程 中 ， 你 可 能 偶然 见 过 这 些 把 戏 ， 因 此 我 党 
得 有 必要 讲 一 下 。 


我 惊讶 地 发 现 ， 对 元 组 t 来 说 ，t[:] 不 创建 副本 ， 而 是 返回 同一 个 对 象 的 
引用 。 此 外 ，tuple(t) 获得 的 也 是 同一 个 元 组 的 引用 。? 示例 8-20 证 明了 
= 


5 文档 明确 指出 了 这 个 行为 。 在 Python 控制 台中 输入 help(tup1le ) ， 你 会 看 到 这 句 话 : “MRR 
是 一 个 元 组 ， 那 么 返回 值 是 同一 个 对 象 。 ”撰写 这 本 书 之 前 ， 我 还 以 为 自己 对 元 组 无 所 不 知 。 


示例 8-20 ”使 用 另 一 个 元 组 构建 元 组 ， 得 到 的 其 实 是 同一 个 元 组 


= (1, 2, 3) 
= tuple(t1) 
is ti @ 


= ti[:] 
is ti @ 


@t1 和 ft2 绑 定 到 同一 个 对 象 。 


@ t3 也是。 


str、bytes 和 frozenset 实例 也 有 这 种 和 TN °- TEE, frozenset 实例 
不 是 序列 ， 因 此 不 能 使 用 fs [ : l (fs s 是 一 个 frozenset 实例 ) 。 但 是 ， 
fs.copy() 具有 相同 的 效果 : 欺骗 你 ， 返 回 同一 个 对 象 的 引用 ， 而 不 
是 创建 一 个 副本 ， ee 


Scopy 方法 不 会 复制 所 有 对 象 ， 这 是 一 个 善意 的 谎言 ， 为 的 是 接口 的 兼容 性 : 这 使 得 frozenset 
的 兼容 性 比 set 强 。 两 个 不 可 变 对 象 是 同一 个 对 象 还 是 副本 ， 反 正 对 最 终 用 户 来 说 没有 区 别 。 


示例 8-21 字符 串 字 面 量 可 能 会 创建 共享 的 对 象 


= (1, 2, 3) 
= (1, 2, 3) #0 
is ti #@ 


= 'ABC' 
= 'ABC' # © 
is si #0 


@ 新 建 一 个 元 组 。 

@ t1 和 t3 相等 ， 但 不 是 同一 个 对 象 。 

© 再 新 建 一 个 字符 串 。 

@ 奇怪 的 事 发 生 了 ，a 和 b 指 代 同 一 个 字符 串 。 

共享 字符 串 字 面 量 是 一 种 优化 措施 ， 称 为 驻 留 (interning) 。CPython 还 会 
在 小 的 整数 上 使 用 这 个 优化 措施 ， 防 止 重复 创建 “热门 ”数字 ， 如 0、-1 和 


42。 注 意 ，CPython 不 会 驻 留 所 有 字符 串 和 整数 ， 驻 留 的 条 件 是 实现 细 市 ， 
而 且 没 有 文档 说 明 。 


你 千 万 不 要 依赖 字符 串 或 整数 的 驻 留 ! 比较 字符 串 或 整数 是 否 相等 
时 ， 应 该 使 用 ==， 而 不 是 is ° FER ze Python 解释 器 内 部 使 用 的 一 个 特 
性 。 


本 节 讨 论 的 把 戏 ， 包 括 frozenset .copy( ) 的 行为 ， 是 “善意 的 谎言 >， 能 
节省 内 存 ， 提 升 解释 器 的 速度 。 别 担心 ， 它 们 不 会 为 你 带 来 任何 麻烦 ， 因 为 


只 有 不 可 变 类 型 会 受到 影响 。 或许 这 些 细 枢 末世 的 最 佳 用 途 是 与 其 他 Python 
程序 员 打 赌 ， 提 高 自己 的 胜算 。 


8.8 ”本 章 小 结 
每 个 Python 对象 都 有 标识 、 类 型 和 值 。 只 有 对 象 的 值 会 不 时 变化 。7 


7 其实 ， 对 象 的 类 型 也 可 以 变 ， 方法 只 有 一 种 : H class__” 属 性 指定 其 他 类 。 但 这 是 在 作恶 ， 我 
后 悔 加 上 这 个 脚注 了 。 


如 果 两 个 变量 指 代 的 不 可 变 对 象 具有 相同 的 值 (a == b 为 True) ， 实 际 
上 它们 指 代 的 是 副本 还 是 同一 个 对 象 的 别名 基本 没什么 关系 ， 因 为 不 可 变 对 
象 的 值 不 会 变 ， 但 有 一 个 例外 。 这 里 说 的 例外 是 不 可 变 的 集合 ， 如 元 组 和 
frozenset: 如 果 不 可 变 集合 保存 的 是 可 变 元 素 的 引用 ， 那 么 可 变 元 素 的 
值 发 生变 化 后 ， 不 可 变 集 合 也 会 随 之 改变 。 实 际 上 ， 这 种 情况 不 是 很 常见 。 
不 可 变 集 合 不 变 的 是 所 含 对 象 的 标识 。 


变量 保存 的 是 引用 ， 这 一 点 对 Python 编程 有 很 多 实际 的 影响 。 
简单 的 赋值 不 创建 副本 。 


对 += 或 *= 所 做 的 增 量 赋值 来 说 ， 如 果 左边 的 变量 绑 定 的 是 不 可 变 对 
象 ， 会 创建 新 对 象 ， 如 果 是 可 变 对 象 ， 会 就 地 修改 。 


为 现 有 的 变量 赋予 新 值 ， 不 会 修改 之 前 绑 定 的 变量 。 这 叫 重 新 绑 定 : M 
在 变量 绑 定 了 其 他 对 象 。 如 果 变 量 是 之 前 那个 对 象 的 最 后 一 个 引用 ， 对 
会 被 当 作 垃圾 回收 。 


函数 的 参数 以 别名 的 形式 传递 ， 这 意味 着 ， 函 数 可 能 会 修改 通过 参数 传 
入 的 可 变 对 象 。 这 一 行为 无 法 避免 ， 除 非 在 本 地 创建 副本 ， 或 者 使 用 不 
可 变 对 象 (例如 ， 传 入 元 组 ， 而 不 传 入 列表 ) 。 


。 使 用 可 变 类 型 作为 函数 参数 的 默认 值 有 危险 ， 因 为 如 果 就 地 修改 了 参 
数 ， 默 认 值 也 束 变 了 ， 这 会 影响 以 后 使 用 默认 值 的 调用 。 


在 CPython 中 ， 对 象 的 引用 数量 归 零 后 ， 对 象 会 被 立即 销毁 。 如 有 果 除 了 循环 
引用 之 外 没有 其 他 引用 ， 两 个 对 象 都 会 被 销毁 。 某 些 情 况 下 ， 可 能 需要 保存 
对 象 的 引用 ， 但 不 留存 对 象 本 喘 。 例 如 ， 有 一 个 类 想 要 记录 所 有 实例 。 这 个 
需求 可 以 使 用 弱 引 用 实现 ， 这 是 一 种 低层 机 制 ， 是 weakref 模块 中 
weakValueDictionary、WeakKeyDictionary 和 WeakSet 等 有 用 的 
集合 类 ， 以 及 finalize 函数 的 底层 支持 。 


8.9 ”延伸 阅读 


Python 语言 参考 手册 中 “Data Model 一 章 的 开头 清楚 解释 了 对 象 的 标识 和 
值 。 


“Python 核心 系列 "图书 的 作者 Wesley Chun 在 OSCON 2013 做 了 一 场 精 彩 的 
演讲 ， 涵 盖 了 本 章 讨论 的 很 多 话题 。 在 “Python 103: Memory Model & Best 

Practices” 演 讲 页 面 可 以 下 载 幻 灯 片 。Wesley 在 EuroPython 2011 还 做 过 一 次 
(YouTube 视频 ) ， 不 仅 涵 盖 了 本 章 的 主题 ， 还 讨论 了 特殊 方法 


Doug Hellmann 写 了 一 长 串 精 彩 的 博客 文章 ， 题 为 "Python Module of the 
Week”, 8 后 来 集结 成 书 ， 即 《Python 标准 库 》。 他 写 的 “copy - Duplicate 
Objects”? 和 “weakref - Garbage-Collectable References to Objects”! 两 篇 文章 
涵盖 了 本 章 讨论 的 部 分 话题 。 


8 原 来 是 基 J Python 2 的 现在 已 经 改 为 AS] Python 3o 一 一 编者 注 


9 新 的 版 本 基于 Python 3 ° 编者 注 


10 新 的 版 本 基于 Python 3， 并 改名 为 “weakref - Impermanent References to Objects” ° 编者 注 


关于 CPython 分 代 垃 圾 回收 程序 的 更 多 信息 ， 请 参阅 gc 模块 的 文档 。 文 档 
开头 的 第 一 句 话 是 : “这 个 模块 为 可 选 的 垃圾 回收 程序 提供 接口 。”“ 可 选 
的 ”这 个 修饰 词 可 能 让 人 人 惊讶， 不 过 “Data Model” 一 章 也 说 : 


垃圾 回收 可 以 延缓 实现 ， 或 者 完全 不 实现 一 一 如 何 实现 垃圾 回收 是 实现 
的 质量 问题 ， 只 要 不 把 还 能 获得 的 对 象 给 回收 了 就 行 。 


Fredrik Lundh (很 多 核心 库 的 创建 者 ， 如 ElementTree ` Tkinter 和 图 像 库 
PIL) 写 了 一 篇 短文 ， 谈 论 了 Python 的 垃圾 回收 程序 ， 题 为 *How Does 
Python Manage Memory?”。 他 强调 垃圾 回收 程序 是 一 种 实现 的 特性 ， 其 行为 
LA Python 解释 絮 中 有 所 不 同 。 例 如 ，Jython 用 的 是 Java 垃圾 回收 程 
Y o 


CPython 3.4 改进 了 处 理 有 __del _ 方法 的 对 象 的 方式 ， 参 见 “PEP 442— 


Safe object finalization” ° 


维基 百科 中 有 一 篇 文章 讲解 了 字符 串 驻 留 ， 那 篇 文章 提 到 了 几 种 语言 对 这 个 
技术 的 利用 ， 包 括 Python ° 


平等 对 待 所 有 对 象 


ACER Python 之 前 ， 我 学 过 Java。 我 一 直觉 得 Java 的 == 运算 符 用 着 不 舍 
服 。 程 序 员 关注 的 基本 上 是 相等 性 ， 而 不 是 标识 ， 但 是 Java 的 == 运算 
符 比 较 的 是 对 象 (不 是 基本 类 型 ) 的 引用 ， 而 不 是 对 象 的 值 。 就 算是 比 
较 字 符 串 这 样 的 基本 操作 ，Java 也 强制 你 使 用 .equals 方法 。 尽 管 如 
It, .equals 方法 还 有 为 一 个 问题 ， 如 采编 写 a.equals(b), 而 a 
是 null1， 会 得 到 一 个 空 指针 异常 。Java 设计 者 觉得 有 必要 重 载 字符 串 
的 + 运算 符 ， 那 为 什么 不 把 == 也 重 载 了 ? 


Python 采取 了 正确 的 方式 。== 运算 符 比 较 对 象 的 值 ， 而 is 比较 引用 。 
此 外 ，Python 支持 重 载 运算 符 ，== 能 正确 处 理 标准 库 中 的 所 有 对 象 ， 
包括 None 一 一 这 是 一 个 正常 的 对 象 ， 与 Java 的 null 不 同 。 


当然 ， 你 可 以 在 目 己 的 类 中 定义 ”eq_ 方法 ,决定 == 如 何 比较 实 
例 。 如 果 不 覆 盖 eq_ 777K, BLAM object 继承 的 方法 比较 对 象 的 
ID， 因 此 这 种 后 备 机 制 认 为 用 户 定 义 的 类 的 各 个 实例 是 不 同 的 。 


1998 年 9 月 的 一 个 下 午 ， 读 完 Python 教程 后 ， 考 虑 到 这 些 行为 ， 我 立 
即 就 从 Java 转 到 Python T ° 


可 变性 


WRA Python 对 象 都 是 不 可 变 的 ， 那 么 本 半 就 没有 存在 的 必要 了 。 人 处 
理 不 可 变 的 对 象 时 ， 变 量 保 存 的 是 真正 的 对 象 还 是 共享 对 象 的 引用 无 关 
紧要 。 如 果 a == b 成 立 ， 而 且 两 个 对 象 都 不 会 变 ， 那 么 它们 就 可 能 是 
相同 的 对 象 。 这 就 是 为 什么 字符 串 可 以 安全 使 用 驻 留 。 仪 当 对 象 可 变 
时 ， 对 象 标识 才 重 要 。 


在 “ 纯 ? 函 数 式 编程 中 ， 所 有 数据 都 是 不 可 变 的 ， 如 有 果 为 集合 追加 元 素 ， 

那么 其 实 会 创建 新 的 集合 。 然 而 ，Python 不 是 函数 式 语言 ， 更 别提 纯 不 
纯 了 。 在 Python 中 ， 用 户 定义 的 类 ， 其 实例 默认 可 变 (多 数 面 向 对 象 语 
言 都 是 如 此 ) 。 自 己 创建 对 象 时 ， 如 果 需 要 不 可 变 的 对 象 ， 一 定 要 格外 
小 心 。 此 时 ， 对 和 象 的 每 个 属性 都 必须 是 不 可 变 的 ， 否 则 会 出 现 类 似 元 组 
那 种 行为 ， 元 组 本 身 不 可 变 ， 但 是 如 果 里 面 保存 着 可 变 对 象 ， 那 么 元 组 


的 值 可 能 会 变 。 


可 变 对 象 还 是 导致 多 线程 编程 难以 处 理 的 主要 原因 ， 因 为 某 个 线程 改动 
对 象 后 ， 如 有 果 不 正确 地 同步 ， 那 惑 会 损坏 数据 。 但 是 过 度 同 步 又 会 导致 


死 锁 。 
对 象 析 构 和 垃圾 回收 


Python 没有 直接 销 贤 对 象 的 机 制 ， 这 一 压 漏 其 实 是 一 个 好 的 特性 ， 如 果 
随时 可 以 销 贤 对 象 ， 那 么 指向 对 象 的 强 引 用 怎么 办 ? 


CPython 中 的 垃圾 回收 主要 依靠 引用 计数 ， 这 容易 实现 ， 但 是 遇 到 引用 
循环 容易 泄露 内 存 ， 因 此 CPython 2.0 (2000 年 10 月 发 布 ) 实现 了 分 代 
垃圾 回收 程序 ， 它 能 把 引用 循环 中 不 可 获取 的 对 象 销 毁 。 


但 是 引用 计数 仍然 作为 一 种 基准 存在 ， 一 旦 引用 数量 归 零 ， 束 立即 销毁 
对 象 。 这 意味 着 ， 在 CPython 中 ， 这 样 写 是 安全 的 《至 少 目前 如 此 ) : 


` 


open('test.txt', 'wt', encoding='utf-8').write('1, 2, 3') 


这 行 代码 是 安全 的 ， 因 为 文件 对 象 的 引用 数量 会 在 write 方法 返回 后 
归 零 ，Python 在 销毁 内 存 中 表示 文件 的 对 象 之 前 ， 会 立即 关闭 文件 。 然 
而 ， 这 行 代码 在 Jython 或 IronPython 中 却 不 安全 ， 因 为 它们 使 用 的 是 宿 
主 运行 时 (Java VM 和 .NET CLR) 中 的 垃圾 回收 程序 ， 那 些 回 收 程序 
更 复杂 ， 但 是 不 依靠 引用 计数 ， 而 且 销 毁 对 象 和 关闭 文件 的 时 间 可 能 

长 。 在 任何 情况 下 ， 包 括 CPython， 最 好 显 式 关闭 文件 ， 而 关闭 文件 的 
最 可 靠 方式 是 使 用 with 语句 ， 它 能 保证 文件 一 定 会 向 关闭， 即使 打开 
文件 时 抛 出 了 异常 也 无 妨 。 使 用 with， 上 述 代码 片段 变 成 了 : 


with open('test.txt', 'wt', encoding='utf-8') as fp: 
fp.write('1, 2, 3') 


如 果 对 垃圾 回收 程序 感 兴趣 ， 可 以 阅读 Thomas Perl 的 论文 ，“Python 


Garbage Collector Implementations: CPython, PyPy and GaS” ° ize MAb ie 
论文 中 ， 我 得 知 在 CPython 中 open().write() 是 安全 的 。 


参数 传递 : 共享 传 参 


解释 Python 中 参数 传递 的 方式 时 ， 人 们 经 常 这 样 说 : “参数 按 值 传递 
但 是 这 里 的 值 是 引用 。” 这 么 说 没 错 ， 但 是 会 引起 误解 ， 因 为 在 旧式 语 
言 中 ， 最 常用 的 参数 传递 模式 有 按 值 传递 〈 画 数 得 到 参数 的 副本 ) 和 按 
引用 传递 ( 画 数 得 到 参数 的 指针 ) 。 在 Python 中 ， 画 数 得 到 参数 的 副 
本 ， 但 是 参数 始终 是 引用 。 因 此 ， 如 果 参 数 引用 的 是 可 变 对 象 ， 那 么 对 
象 可 能 会 被 修改 ， 但 是 对 象 的 标识 不 变 。 此 外 ， 因 为 画 数 得 到 的 是 参数 


JARRIA, 所 以 重 狐 绑 定 对 画 数 外 部 没有 影响 。 读 过 《程序 设计 语言 
(第 3 版 ) ) £ (Michael L. Scott 著 ) 之 后 ， 尤 其 是 8.3.1 
WS BRED, 我 决定 采用 共享 传 参 (call by sharing) 这 个 说 法 。 
爱丽 丝 和 日 骑士 关于 那 首 歌 的 对 话 完 整 版 


我 喜欢 这 段 对 话 ， 但 是 放 在 一 章 的 开头 太 长 了 。 下 面 是 关于 白 骑 士 那 首 
歌 的 完整 对 话 ， 谈 到 了 曲名 和 得 名 的 缘由 。 


m “让 我 给 你 唱 一 首 歌 安奈 
Ke °” 


“ 那 首 歌 很 长 吗 ? ”爱丽 丝 问 道 ， 因 为 这 一 天 她 已 经 昕 过 许多 诗 了 。 


oe ” 白 骑士 说 , “不 过 它 非 常 、 非 常 美 。 不 论 谁 听 到 我 唱 这 首 
是 听 得 热泪 盈 眶 ， 或 者 是 一 一 ” 


“或 者 是 什么 呀 ? "爱丽 丝 问 道 ， 因 为 白 骑 士 忽然 仇 住 不 言语 了 。 


seg TARE, sl RAMANE EEA 


a i een ee 
兴趣 


“不 ， 你 不 明白 ，*” 白 骑士 说 ， 看 来 有 些 心烦 的 样子 ,“ 那 是 人 家 这 人 么 
叫 的 曲名 。 


真正 的 曲名 是 《 老 而 又 老 的 老头 儿 》。” 
“那么 我 刚才 应 该 说 ，" 那 首 歌 是 那么 被 人 叫 的 '? “爱丽 丝 自己 纠正 


说 。 


“不 ， 你 不 应 该 这 么 说 。 这 是 另 一 码 事 ! 这 首 歌 人 家 叫 作 《方法 和 
手段 》。 不 过 这 只 不 过 是 人 家 这 样 叫 ， 你 知道 ! ” 


“ 唱 ， 那 么 ， 那 究竟 是 什么 歌 呢 ? "爱丽 丝 问 道 ， 她 这 一 次 完 完全 全 
给 弄 糊 涂 了 。 


“BCE ete UA , "Far L tie “这 首 歌 真正 是 《 坐 在 大 门 
上 》; 曲子 是 我 目 己 发 明 的 。 


eae Lewis Carroll 
《爱丽 丝 镜 中 奇遇 记 》， 第 8 章 “ 这 是 我 自己 的 发 明 ” 


英文 版 〈 书 名 : Programming Language Pragmatics) 在 2015 年 12 月 已 出 第 4 版 。 编者 六 


第 9 章 ee 


绝对 不 要 使 用 两 个 前 导 下 划 线 ， 这 是 很 烦人 的 自私 行为 。 


Ian Bicking 
pip ` virtualenv 和 Paste 等 项 目的 创建 者 


1 


a 


H Paste 的 风格 指南 。 


得 益 于 Python 数据 模型 ， 自 定义 类 型 的 行为 可 以 像 内 置 类 型 那样 自然 。 实 现 
如 此 自然 的 行为 ， 靠 的 不 是 继承 ， 而 是 鸭子 类 型 (duck typing) : 我 们 只 需 
按照 预定 行为 实现 对 象 所 需 的 方法 即 可 。 


前 一 章 分 析 了 很 多 内 置 对 象 的 结构 和 行为 ， 章 则 自己 定义 类 ， 而 且 让 类 
的 行为 跟 真 正 的 Python 对 象 一 样 。 


这 一 章 接续 第 1 章 ， 说 明 如 何 实现 在 很 多 Python 类 型 中 常见 的 特殊 方法 。 
本 章 包 含 以 下 话题 : 


。 文 持 用 于 生成 对 象 其 他 表示 形式 的 内 置 画 数 (如 repr()、bytes( )， 
等 等 ) 


。 使 用 一 个 类 方法 实现 备 选 构造 方法 
。 扩 展 内 置 的 format () 函数 和 str.format() 方法 使 用 的 格式 微 语言 
。 实现 只 读 属 性 
。 把 对 象 变 为 可 散 列 的 ， 以 便 在 集合 中 及 作为 dict 的 键 使 用 
。 利 用 __slots__ 节 省 内 存 
我 们 将 开发 一 个 简单 的 二 维 欧 几 里 得 向 量 类 型 ， 在 这 个 过 程 中 涵盖 上 壕 全 音 


话题 。 
在 实现 这 个 类 型 的 中 间 了 阶段， 我们 会 讨论 两 个 概念 : 
。 如 何以 及 何 时 使 用 @classmethod 和 @staticmethod 装饰 器 


。 Python 的 私有 属性 和 受 保护 属性 的 用 法 、 约 定 和 局 限 
我 们 从 对 象 表示 形式 函数 开始 。 


9.1 对 象 表示 形式 


每 门面 向 对 象 的 语言 至 少 都 有 一 种 获取 对 象 的 字符 串 表 示 形 式 的 标准 方式 。 
Python 提供 了 两 种 方式 。 


repr() 

以 便于 开发 者 理解 的 方式 返回 对 象 的 字符 串 表 示 形 式 。 
str() 

以 便于 用 户 理解 的 方式 返回 对 象 的 字符 串 表 示 形 式 。 


正如 你 所 知 ， 我 们 要 实现 __repr_ M str _ 特殊 方法 , 为 repr() 和 
str() 提供 文 持 。 


为 了 给 对 象 提供 其 他 的 表示 形式 ， 还 会 用 到 另外 两 个 特殊 方法 : 

_bytes 和 format 。 bytes 方法 与 ”str__ 方法 类 似 : 
bytes() 函数 调用 它 获 取 对 象 的 字 世 序列 表示 形式 。 而 format_ 方法 
会 被 内 置 的 format() HEA str.format() 方法 调用 ， 使 用 特殊 的 格式 
代码 显示 对 象 的 字符 串 表 示 形 式 。 我 们 将 在 下 一 个 示例 中 讨论 __bytes__ 
方法 ， 随 后 再 讨论 format 方法 。 


Pay 如 果 你 是 从 Python 2 转 过 来 的 ， 记 住 ， 在 Python 3 F, 
repr 、_str 和 format_ 都 必须 返回 Unicode 字符 串 
str 类 型 ) oR _ bytes _ 方法 应 该 返回 字 节 序列 (bytes 类 


9.2 Fira 

为 了 说 明 用 于 生成 对 象 表示 形式 的 众多 方法 ， 我 们 将 使 用 一 个 Vector2d 
类 ， 它 与 第 1 章 中 的 类 似 。 这 一 六 和 接 下 来 的 几 节 会 不 断 实 现 这 个 类 。 我 们 
HA Vector2d 实例 具有 的 基本 行为 如 示例 9-1 所 示 。 


示例 9-1 Vector2d 实例 有 多 种 表示 形式 


He 


vi = Vector2d(3, 4) 
print(vi.x, v1.y) @ 


Vector2d(3.0, 4.0) 

>>> vi_clone = eval(repr(vi)) ©@ 

>>> v1 == vi_clone © 

True 

>>> print(v1) © 

(3.0, 4.0) 

>>> octets = bytes(v1) © 

>>> octets 
b'd\\xOO\\xXOO\\XKOO\\XOO\\XOO\\XOO\\XO8B@\\XOO\\XOO\\XOO\\XOO\\XOO\\XOO\\X 
10@' 

>>> abs(v1) 日 

5.0 

>>> bool(v1), bool(Vector2d(0, 0)) © 


@ Vector2d 实例 的 分 量 可 以 直接 通过 属性 访问 〈 无 需 调 用 读 值 方法 ) 。 
@ Vector2d 实例 可 以 拆 包 成 变量 元 组 。 
© repr 函数 调用 Vector2d 实例 ， 得 到 的 结果 类 似 于 构建 实例 的 源码 。 


@ 这 里 使 用 eval NAY, FHA repr 函数 调用 Vector2d 实例 得 到 的 是 对 构 
造 方法 的 准确 表述 。” 


2 这 里 使 用 eval 函数 克隆 对 象 是 为 了 说 明 repr 方法 。 使 用 copy , copy 函数 克隆 实例 更 安全 也 更 
快速 。 


© Vector2d 实例 文 持 使 用 == 比较 ;这样 便于 测试 。 
O print 函数 会 调用 str HAL, X Vector2d 来 说 ， 输 出 的 是 一 个 有 序 


对 。 
@ bytes KASHA bytes 方法， 生成 实例 的 二 进 制 表示 形式 。 
@ abs HAUSA abs 方法， 返回 Vector2d 实例 的 模 。 


© bool KASHA bool ”方法 ， 如 果 Vector2d 实例 的 模 为 零 ， 返 
H| False, All True e 


示例 9-1 中 的 Vector2d 类 在 vector2d_v0.py 文件 中 实现 〈 见 示例 9-2) ° 
这 段 代 码 基 于 示例 1-2, RT == 之 外 (在 测试 中 用 得 到 ) ， 其 他 中 组 运算 符 


将 在 第 13 章 实现 。 现 在 ，Vector2d 用 到 了 几 个 特殊 方法 ， 这 些 方法 提供 


的 操作 是 Python 高 手 期 待 设计 良好 的 对 象 所 提供 的 。 
示例 9-2 vector2d_v0.py: 目前 定义 的 都 是 特殊 方法 


from array import array 
import math 


class Vector2d: 
typecode = 'd' @ 


def 


__init__(self, x, y): 
self.x = float(x) © 
self.y = float(y) 


def _iter_ (self): 
return (i for i in (self.x, self.y)) ® 
def _repr_ (self): 


class_name = type(self).__name__ 
return '{}({!r}, {!r})'.format(class_name, *self) ©@ 


def _str_ (self): 
return str(tuple(self)) © 
def _ bytes_ (self): 
return (bytes([ord(self.typecode)]) + © 
bytes(array(self.typecode, self))) @ 
def _eq_ (self, other): 
return tuple(self) == tuple(other) © 
def _abs_ (self): 
return math.hypot(self.x, self.y) © 
def _ bool (self): 


return bool(abs(self)) @ 


@ typecode 是 类 属性 ， 在 Vector2d 实例 和 字 节 序列 之 间 转 换 时 使 用 。 


ƏT init 方法 中 把 x 和 y 转换 成 浮 点 数 ， 尽 早 捕获 错误 ， 以 防 调用 
Vector2d 函数 时 传 入 不 当 参 数 。 


Oe iter ”方法 ， 把 Vector2d 实例 变 成 可 迭代 的 对 象 ， 这 样 才 能 
HE Aa, x, y = my_vector) 。 这 个 方法 的 实现 方式 很 简单 ， 直 接 
调用 生成 器 表达 式 一 个 接 一 个 产 出 分 量 。3 


3 这 一 行 也 可 以 写成 yield self.x; yield.self.y。 第 14 章 会 进一步 讨论 iter__ PRA 
法 、 生 成 器 表达 式 和 yield KEF ° 


@_ repr 方法 使 用 {!r} 获取 各 个 分 量 的 表示 形式 ， 然 后 插值 ， 构 成 一 
个 字符 串 ; 因为 Vector2d 实例 是 可 迭代 的 对 象 ， 所 以 *self 会 把 X 和 y 
分 量 提 供给 format KË ° 


@ 从 可 选 代 的 vector2d 实例 中 可 以 轻松 地 得 到 一 个 元 组 ， 显 示 为 一 个 有 
序 对 。 


@ 为 了 生成 字 节 序列 ， 我 们 把 typecode 转换 成 字 节 序列 ， 然 后 ..……… 
@ AK Vector2d 实例 ， 得 到 一 个 数组 ， 再 把 数组 转换 成 字 万 序列 。 


@ 为 了 快速 比较 所 有 分 量 ， 在 操作 数 中 构建 元 组 。 对 Vector2d 实例 来 
说 ， 可 以 这 样 做 ， 不 过 仍 有 问题 。 参 见 下 面 的 警告 。 


O fle x Aly 分 量 构成 的 直角 三 角形 的 笠 边 长 。 


四 bool 方法 使 用 abs(self) 计算 模 ， 然 后 把 结果 转换 成 布尔 值 ， 
Ik, 0.0 Æ False, JE4(H True ° 


Be 示例 9-2 中 的 __eq__ 方法 ， 在 两 个 操作 数 都 是 Vector2d 实 
例 时 可 用 ， 不 过 合 Vector2d 实例 与 其 他 具有 相同 数值 的 可 迭代 对 象 相 
比 ， 结 果 也 是 True (如 Vector(3，4) == [3，4]) 。 这 个 行为 可 
以 视 作 特性 ， 也 可 以 视 作 缺陷 。 第 13 章 讲 到 运算 符 重 载 时 才能 进一步 


讨论 。 
我 们 已 经 定义 了 很 多 基本 方法 ， 但 是 显然 少 了 一 个 操作 :使 用 bytes() E 
数 生成 的 二 进 制 表示 形式 重建 Vector2d 实例 - 

9.3 ” 备 选 构造 方法 


我 们 可 以 把 Vector2d 实例 转换 成 子 市 序列 了 ;， 同 理 ， 也 应 该 能 从 字 节 序列 
转换 成 Vector2d 实例 。 在 标准 库 中 探索 一 看 之 后 ， 我 们 发 现 


array.array 有 个 类 方法 .frombytes (2.9.1 节 介 绍 过 ) 正好 符合 需 
求 。 下 面 在 vector2d_v1.py 〈 见 示例 9-3) 中 为 Vector2d 定义 一 个 同名 类 
方法 。 


示例 9-3 vector2d_v1.py 的 一 部 分 : 这 段 代 码 只 列 出 了 frombytes 类 
方法 ， 要 添加 到 vector2d_v0.py 〈 见 示例 9-2) 中 定义 的 Vector2d 类 中 


@classmethod @ 
def frombytes(cls, octets): @ 
typecode = chr(octets[0]) © 
memv = memoryview(octets[1:]).cast(typecode) ©@ 


return cls(*memv) © 


@ KARA self 参数 ; 相反， 要 通过 cls KARAT ° 
© 从 第 一 个 字 市 中 读 取 typecode。 


O 使 用 传 入 的 octets 字 节 序列 创建 一 个 memoryview， 然 后 使 用 
typecode 转换 。4 


42.9.2 节 简 单 介 绍 过 memoryview， 说 明了 它 的 .cast 方法 。 


O 拆 包 转 换 后 的 memoryview， 得 到 构造 方法 所 需 的 一 对 参数 。 
我 们 用 的 classmethod 装饰 器 是 Python 专用 的 ， 下 面 讲解 一 下 。 


9.4 classmethodSstaticmethod 


Python 教程 没有 提 到 classmethod 装饰 器 ， 也 没有 提 到 
staticmethod。 学 过 Java 面向 对 象 编程 的 人 可 能 觉得 奇怪 ， 为 什么 
Python 提供 两 个 这 样 的 装饰 器 ， 而 不 是 只 提供 一 个 ? 


先 来 看 classmethod。 示 例 9-3 展示 了 它 的 用 法 : 定义 操作 类 ， 而 不 是 操 
作 实 例 的 方法 。classmethod 改变 了 调用 方法 的 方式 ， 因 此 类 方法 的 第 一 
个 参数 是 类 本 身 ， 而 不 是 实例 。classmethod 最 常见 的 用 途 是 定义 备 选 构 
造 方法 ， 例 如 示例 9-3 中 的 frombytes。 注 意 ，frombytes 的 最 后 一 行使 


用 cls 参数 构建 了 一 个 新 实例 ， 即 cls(*memv )。 按 照 约 定 ， 类 方法 的 第 
一 个 参数 名 为 cls (但 是 Python 不 介意 具体 怎么 命名 ) 。 


staticmethod 装饰 器 也 会 改变 方法 的 调用 方式 ， 但 是 第 一 个 参数 不 是 特 

殊 的 值 。 其 实 ， 静 态 方法 就 是 普通 的 函数 ， 只 是 碰巧 在 类 的 定义 体 中 ， 而 不 
是 在 模块 层 定 义 。 示 例 9-4 对 classmethod 和 staticmethod 的 行为 做 
了 对 比 。 


示例 9-4 比较 classmethod 和 staticmethod 的 行为 


>>> class Demo: 
@classmethod 
def klassmeth(*args): 
return args # @ 
@staticmethod 
def statmeth(*args): 
return args #@ 


>>> Demo.klassmeth() # © 
(<class '__main__.Demo'>, ) 

>>> Demo.klassmeth('spam' ) 
(<class '__main__.Demo'>, 'spam') 
>>> Demo.statmeth() #® 

SA Demo.statmeth('spam') 

( Spam ，) 


@ klassmeth 返回 全 部 位 置 参数 。 


Ə statmeth 也 是 。 


© 不 管 怎样 调用 Demo .klassmeth， 它 的 第 一 个 参数 始终 是 Demo 类 。 


@ Demo. statmeth 的 行为 与 普通 的 函数 相似 。 


` classmethod ifia EA AMH, (EER MORI METAS 
staticmethod 的 情况 。 如 果 想 定义 不 需要 与 类 交互 的 函数 ， 那 么 在 
模块 中 定义 就 好 了 。 有 时 ， 画 数 虽 然 从 不 处 理 类 ， 但 是 函数 的 功能 与 类 
紧密 相关 ， 因 此 想 把 它 放 在 近 处 。 即 便 如 此 ， 在 同一 模块 中 的 类 前 面 或 
后 面 定 义 函 数 也 就 行 了 。” 


5 本 书 的 技术 审 校 之 一 Leonardo Rochael 不 同意 我 对 staticmethod 的 见解 ， 作 为 反驳 ， 他 推荐 阅 
读 Julien Danjou 写 的 一 篇 博客 文章 ， 题 为 “The Definitive Guide on How to Use Static, Class or Abstract 


Methods in Python” ° Danjou 的 这 篇 文章 写 得 很 好 ， 我 推荐 阅读 。 但 是 ， 我 对 staticmethod 的 观 
点 依然 不 变 。 请 读者 目 状 。 


现在 ， 我 们 对 classmethod 的 作用 已 经 有 所 了 解 (而 且 知 道 
staticmethod 不 是 特别 有 用 ) ， 下 面 继续 讨论 对 象 的 表示 形式 ， 说 明 如 
何 支 持 格 式 化 输出 。 


9.5 ”格式 化 显示 
内 置 的 format() 函数 和 str. format() 方法 把 各 个 类 型 的 格式 化 方式 委 
托 给 相应 的 ，_format__ (format_spec) 方法 。format_spec 是 格式 
说 明 符 ， 它 是 : 

e format(my_obj, format_spec) 的 第 二 个 参数 ， 或 者 

e str.format() 方法 的 格式 字符 串 ，{} 里 代 换 字段 中 冒号 后 面 的 部 分 


例如 : 


>>> brl = 1/2.43 # BRL 到 USD 的 货币 兑换 比价 
>>> brl 

0.4115226337448559 

>>> format(brl, '0.4f') #@0 


"0.4115 
>>> '1 BRL = {rate:0.2f} USD' .format(rate=br1) #@ 
'1 BRL = 0.41 USD' 


O 格式 说 明 符 是 '9.4f' 。 


@ 格式 说 明 符 是 '0 .2f'。 代 换 字段 中 的 'rate' 子 串 是 字段 名 称 ， 与 格式 
说 明 符 无 关 ， 但 是 它 决 定 把 ,format ( ) 的 哪个 参数 传 给 代 换 字段 。 


第 2 条 标注 指出 了 一 个 重要 知识 点 : '{0.mass:5.3e}' 这 样 的 格式 字符 串 
其 实 包含 两 部 分 ， 冒 号 左边 的 '0.,mass' 在 代 换 字段 句法 中 是 字段 名 ， 冒 号 
后 面 的 '5.3e' 是 格式 说 明 符 。 格 却说 明 符 使 用 的 表示 法 叫 格式 规范 微 语言 


(“Format Specification Mini-Language”) ° 


AI 如 果 你 对 format() 和 str.format() 都 感到 陌生 ， 根 据 我 的 
教学 经 验 ， 最 好 先 学 format ( ) WA, AAC AAR AERO ° 
学 会 这 些 表 示 法 之 后 ， 再 阅读 格式 字符 串 句 法 (“Format String 


Syntax”) ， 学 习 str.format( ) 方法 使 用 的 {:} 代 换 字段 表示 法 ( 包 
含 转换 标志 !s、!Lr 和 1!a) 。 


格式 规范 微 语言 为 一 些 内 置 类 型 提供 了 专用 的 表示 代码 。 比 如 ，b 和 x 分 别 
表示 二 进 制 和 十 六 进 制 的 int RÆ, f 表示 小 数 形式 的 float RAY, W% 
表示 百分数 形式 : 


>>> format(42, 'b') 


'101010' 
>>> format(2/3, '.1%') 
"66.7%' 


格式 规范 微 语 言 是 可 扩展 的 ， 因 为 各 个 类 可 以 自行 决定 如 何 解 释 
format_spec 参数 。 例 如 ，datetime 模块 中 的 类 ， 它 们 的 

_ format _ 方法 使 用 的 格式 代码 与 strftime( ) 函数 一 样 。 下 面 是 内 置 
的 format() 函数 和 str,format() 方法 的 几 个 示例 : 


>>> from datetime import datetime 
>>> now = datetime.now() 
>>> format(now, '%H:%M:%S') 


'18:49:05' 


>>> "It's now {:%1:%M %p}". format (now) 
"It's now 06:49 PM" 


如 果 类 没有 定义 __format 方法， 从 object 继承 的 方法 会 返回 
str(my_object)。 我 们 为 Vector2d 类 定义 了 __str__ 方法 ， 因 此 可 
以 这 样 做 : 


>>> v1 = Vector2d(3, 4) 
>>> format (v1) 
'(3.0, 4.0)' 


然而 ， 如 果 传 入 格式 说 明 符 ，object, _ format ”方法 会 抛 出 
TypeError: 


>>> format(vi, '.3f') 
Traceback (most recent call last): 


TypeError: non-empty format string passed to object. __format__ 


我 们 将 实现 自己 的 微 语 言 来 解决 这 个 问题 。 首 先 ， 假 设 用 户 提供 的 格式 说 明 
符 是 用 于 格式 化 向 量 中 各 个 浮 点 数 分 量 的 。 我 们 想 达 到 的 效果 是 : 


>>> v1 = Vector2d(3, 4) 
>>> format (v1) 


'(3.0, 4.0)' 

>>> format (vi, '.2f') 
'(3.00, 4.00)' 

>>> format(vi, '.3e') 
'(3.000e+00, 4.000e+00) ' 


实现 这 种 输出 的 ”format ”方法 如 示例 9-5 所 示 。 


示例 9-5 Vector2d. format 方法 , 第 1 版 


# 在 Vector2d 类 中 定义 


def _ format_ (self, fmt_spec=''): 


components = (format(c, fmt_spec) for c in self) # @ 
return '({}, {})'.format(*components) # @ 


@ 使 用 内 置 的 format HAGE fmt_spec 应 用 到 向 量 的 各 个 分 量 上 ， 构 建 
一 个 可 迭代 的 格式 化 字符 串 。 
O 把 格式 化 字符 串 代 入 公式 (x, y)' Fe 


下 面 要 在 微 语言 中 添加 一 个 自 定 义 的 格式 代码 : 如 果 格 式 说 明 符 以 'p ' 结 
E, BAERE PERAE, Br, 8 >, Ar 是 模 ，6 (西塔 E 
BE; 其 他 部 分 ('p' 之 前 的 部 分 ) 像 往常 那样 解释 。 


和 为 自 定义 的 格式 代码 选择 字母 时 ， 我 会 避免 使 用 其 他 类 型 用 过 的 
字母 。 在 格式 规范 微 语言 中 我 们 看 到 ， 整 数 使 用 的 代码 有 
'bcdoxXn'， 浮 点 数 使 用 的 代码 有 'eEfFgGn%' ， 字 符 串 使 用 的 代码 
有 's'。 因 此 ， 我 为 极 坐标 选 的 代码 是 'p'。 各 个 类 使 用 自己 的 方式 解 
释 格 式 代码 ， 在 目 定 义 的 格式 代码 中 重复 使 用 代码 字母 不 会 出 错 ， 但 是 
可 能 会 让 用 户 困 惑 。 
对 极 坐 标 来 说 ， 我 们 已 经 定义 了 计算 模 的 __abs__ 方法 ， 因 此 还 要 定义 一 
J angle 方法 ， 使 用 math ,atan2() 函数 计算 角度 。angle 方法 
J 代码 如 下 : 


# 在 Vector2d 类 中 定义 


def angle(self): 


return math.atan2(self.y, self.x) 


这 样 便 可 以 增强 format__ 方法， 计算 极 坐 标 ， 如 示例 9-6 所 示 。 


示例 9-6 Vector2d. format__ 方法， 第 2 版 ， 现 在 能 计算 极 坐 标 
了 


def _ format_ (self, fmt_spec=''): 
if fmt_spec.endswith('p'): @ 
fmt_spec = fmt_spec[:-1] @ 
coords = (abs(self), self.angle()) © 


outer_fmt = '<{}, {}>' 0 
else: 

coords = self © 

outer_fmt = '({}, {})' © 
components = (format(c, fmt_spec) for c in coords) @ 
return outer_fmt.format(*components) © 


@ 如 果 格 式 代码 以 'p' 结尾 ， 使 用 极 坐标 。 

@ 从 fmt_spec 中 删除 'p' JERR ° 

© 构建 一 个 元 组 ， 表 示 极 坐标 : (magnitude, angle) ° 

O 把 外 层 格式 设 为 一 对 尖 括 号 。 

O 如 果 不 以 'p ' 结尾 ， 使 用 self 的 x 和 y 分 量 构建 直角 坐标 。 
O 把 外 层 格式 设 为 一 对 圆 括号 。 

@ 使 用 各 个 分 量 生成 可 迭代 的 对 象 ， 构 成 格式 化 字符 串 。 

O 把 格式 化 字符 串 代 入 外 层 格式 。 

示例 9-6 中 的 代码 得 到 的 结果 如 下 : 


>>> format(Vector2d(1, 1), 'p') 
"<1.4142135623730951, 0©.7853981633974483>' 
>>> format(Vector2d(1, 1), '.3ep') 
"<1.414e+00, 7.854e-01>' 

>>> format(Vector2d(1, 1), '0.5fp') 
"<1.41421, ©.78540>' 


如 本 节 所 示 ， 为 用 户 自 定义 的 类 型 扩展 格式 规范 微 语言 并 不 难 。 


下 面 换个 话题 ， 它 不 仅 事 关 对 象 的 外 观 : 我 们 将 把 Vector2d 变 成 可 散 列 
的 ， 这 样 便 可 以 构建 向 量 集合 ， 或 者 把 向 量 当 作 dict 的 键 使 用 。 不 过 在 此 
之 前 ， 必 须 让 向 量 不 可 变 。 详 情 参 见 下 一 节 。 


9.6 ”可 散 列 的 Vector2d 


按照 定义 ， 目 前 Vector2d 实例 是 不 可 散 列 的 ， 因 此 不 能 放 入 集合 (set) 
中 : 


>>> vi = Vector2d(3, 4) 
>>> hash(v1) 
Traceback (most recent call last): 


TypeError: unhashable type: 'Vector2d' 


>>> set([v1]) 
Traceback (most recent call last): 


TypeError: unhashable type: 'Vector2d' 


oe Vector2d 实例 变 成 可 散 列 的 ， 必 须 使 用 __hash_ ”方法 (还 需要 
_ 方法， 前 面 已 经 实现 了 ) 。 此 外 ， 还 要 让 向 量 不 可 变 ， 详 情 参 见 第 
3 3 音 的 再 往 栏 -什么 是 可 散 列 的 数据 类 型 o 


目前 ， 我 们 可 以 为 分 量 赋 新 值 ， 如 v1.x = 7, Vector2d 类 的 代码 并 不 阻 
止 这 么 做 。 我 们 想 要 的 行为 是 这 样 的 : 


由 


>>> v1.x, v1.y 


Traceback (most recent call last): 


AttributeError: can't set attribute 


为 此 ， 我 们 要 把 x 和 y 分 量 设 为 只 读 特 性 ， 如 示例 9-7 所 示 。 


示例 9-7 vector2d_v3.py: 这 里 只 给 出 了 让 Vector2d 不 可 变 的 代码 ， 


完整 的 代码 请 单 在 示例 9-9 中 


class Vector2d : 
typecode = 'd' 


def _ init (self, x, y): 


self. x 
self._ y 


float(x) @ 
float(y) 


@property @ 
def x(self): © 
return self. x ©@ 


@property © 
def y(self): 
return self._ y 


def _iter_ (self): 
return (i for i in (self.x, self.y)) © 


# 下 面 是 其 他 方法 (排版 需要 ， 省 略 了 ) 


@ 使 用 两 个 前 导 下 划 线 〈 尾 部 没有 下 划 线 ， 或 者 有 一 个 下 划 线 ) ， 把 属性 标 


记 为 私有 的 。。 


6 根据 本 章 开 头 引 用 的 那 句 话 ， 这 不 符合 Ian Bicking 的 建议 。 私 有 属性 的 优 缺 点 参见 后 面 的 9.7 节 。 


@ @property 装饰 器 把 读 值 方法 标记 为 特性 。 

日 读 值 方法 与 公开 属性 同名 ， 都 是 x。 

@ 直接 返回 self, x。 

O 以 同样 的 方式 处 理 y 特性 。 

O 需要 读 取 x My 分 量 的 方法 可 以 保持 不 变 ， 通 过 self.x 和 self.y 读 


而 不 必 读 取 私 有 属性 ， 因 此 上 述 代码 清单 省 略 了 这 个 类 的 其 他 


` Vector .x #1 Vector .y 是 只 读 特性 。 读 写 特 性 在 第 19 章 讨 
论 ， 届 时 会 深入 说 明 @property 2eiMas ° 


注意 ， 我 们 让 这 些 向 量 不 可 变 是 有 原因 的 ， 因 为 这 样 才能 实现 hash_ 方 
法 。 这 个 方法 应 该 返回 一 个 整数 ， 理 想 情 况 下 还 要 考虑 对 象 属性 的 散 列 值 

(eq 方法 也 要 使 用 ) ， 因 为 相等 的 对 象 应 该 具有 相同 的 散 列 值 。 根 据 
特殊 方法 __hash__ 的 文档 ， 最 好 使 用 位 运算 符 异 或 (^) 混合 各 分 量 的 散 
列 值 一 我 们 会 这 么 做 。Vector2d. hash _ 方法 的 代码 十 分 简单 ， 如 
示例 9-8 所 示 。 


示例 9-8 vector2d_v3.py: 实现 hash_ 方法 


# 在 Vector2d 类 中 定义 


def _ hash_ (self): 
return hash(self.x) ^ hash(self.y) 


添加 hash_ 方法 之 后 ， 癌 量变 成 可 散 列 的 了 : 


>>> v1 = Vector2d(3, 4) 
>>> v2 = Vector2d(3.1, 4.2) 
>>> hash(v1), hash(v2) 


(7, 384307168202284039) 
>>> set([vi, v2]) 
{Vector2d(3.1, 4.2), Vector2d(3.0, 4.0)} 


本 要 想 创 建 可 散 列 的 类 型 ， 不 一 定 要 实现 特性 ， 也 不 一 定 要 保护 实 
例 属性 。 只 需 正 确 地 实现 hash 和 eq en 但 是 ， 实 
例 的 散 列 值 绝 不 应 该 变化 ， 因 此 我 们 借 机 提 到 了 只 读 特 性 


如 果 定 义 的 类 型 有 标量 数值 ， 可 能 还 要 实现 _ int #1 __ float__ 方法 

(分 别 被 int() 和 float() fej BRON) ， 以 便 在 某 些 情况 下 用 于 强制 
转换 类 型 。 此 外 ， 还 有 用 于 支持 内 置 的 complex( ) 构造 函数 的 
__complex__ 方法 。Vector2d 或 许 应 该 提供 __complex _ FE, 不 过 
我 把 它 留 作 练 习 给 读者 。 


我 们 一 直 在 定义 Vector2d 类 ， 也 列 出 了 很 多 代码 片段 ， 示 例 9-9 是 we 
的 完整 代码 清单 ， 保 存在 vector2d_v3.py 文件 中 ， 包 含 开 发 时 我 编写 的 全 


doctest ° 


示例 9-9 vector2d_v3.py: 完整 版 


A two-dimensional vector class 


>>> vi = Vector2d(3, 4) 

>>> print(v1.x, vi.y) 

3.0 4.0 

>>> 7 y = vi 

>>> y 

(3. 6. A. 0) 

>>> vi 

Vector2d(3.0, 4.0) 

>>> vi_clone = eval(repr(v1)) 


>>> vi == V1 clone 


True 
>>> print(v1) 
(3.0, 4.0) 


>>> octets = bytes(v1) 
>>> octets 


b'd\\xOO\\xXxOO\\XOO\\XOO\\XOO\\XOO\\XO8B@\\XOO\\XOO\\XOO\\XOO\\XOO\\XOO\\X 
10@' 

>>> abs(v1) 

5.0 

>>> bool(v1), bool(Vector2d(0, 0)) 

(True, False) 


Test of ``.frombytes()`` class method: 


>>> vi_clone = Vector2d.frombytes(bytes(v1) ) 
>>> vi_clone 

Vector2d(3.0, 4.0) 

>>> vi == vi_clone 

True 


Tests of `` format()`` with Cartesian coordinates: 


>>> format (v1) 

'(3.0, 4.0)! 

>>> format(vi, '.2f') 
'(3.00, 4.00)' 

>>> format(vi, '.3e') 
'(3.000e+00, 4.000e+00)' 


Tests of the ``angle`` method: : : 


>>> Vector2d(0, 0).angle() 

oe Vector2d(1, 0).angle() 

> epsilon = 10**-8 

>>> abs(Vector2d(0, 1).angle() - math.pi/2) < epsilon 
E 1).angle() - math.pi/4) < epsilon 
True 


Tests of `` format()`` with polar coordinates: 


>>> format(Vector2d(1, 1), 'p') # doctest:+ELLIPSIS 
'<1.414213..., 0.785398...>' 

>>> format(Vector2d(1, 1), '.3ep') 

'<1.414e+00, 7.854e-01>' 

>>> format(Vector2d(1, 1), '0.5fp') 

'<1.41421, 0.78540>' 


Tests of ‘x and `y` read-only properties: 


>>> v1.x, v1.y 

(3.0, 4.0) 

>>> v1.x = 123 

Traceback (most recent call last): 


AttributeError: can't set attribute 


Tests of hashing: 


>>> vi = Vector2d(3, 4) 
>>> v2 = Vector2d(3.1, 4.2) 
>>> hash(v1), hash(v2) 
(7, 384307168202284039 ) 
>>> len(set([v1, v2])) 


from array import array 
import math 


class Vector2d: 
typecode = 'd' 


def _ init__(self, x, y): 


self.__x float(x) 
self._ y float(y) 
@property 


def x(self): 
return self. x 


@property 
def y(self): 
return self._ y 


def _iter_ (self): 
return (i for i in (self.x, self.y)) 


def _repr_ (self): 
class_name = type(self).__name__ 
return '{}({!r}, {!r})'.format(class_name, *self) 


def _str_ (self): 
return str(tuple(self)) 


def _ bytes_ (self): 
return (bytes([ord(self.typecode)]) + 
bytes(array(self.typecode, self))) 


def _eq_ (self, other): 
return tuple(self) == tuple(other) 


def _ hash_ (self): 
return hash(self.x) ^ hash(self.y) 


def _abs_ (self): 
return math.hypot(self.x, self.y) 


def _ bool (self): 
return bool(abs(self)) 


def angle(self): 
return math.atan2(self.y, self.x) 


def _ format_ (self, fmt_spec=''): 

if fmt_spec.endswith('p'): 

fmt_spec = fmt_spec[:-1] 

coords = (abs(self), self.angle()) 

outer_fmt = '<{}, {}>' 
else: 

coords = self 

outer_fmt = '({}, {})' 
components = (format(c, fmt_spec) for c in coords) 
return outer_fmt.format(*components) 


@classmethod 

def frombytes(cls, octets): 
typecode = chr(octets[0]) 
memv = memoryview(octets[1:]).cast(typecode) 
return cls(*memv) 


小 结 一 下 ， 前 两 节 说 明了 一 些 特殊 方法 ， 要 想得到 功能 完善 的 对 象 ， 这 些 方 
法 可 能 是 必 备 的 。 当 然 ， 如 果 你 的 应 用 用 不 到 ， 吏 没 必要 全 部 实现 这 些 方 


法 。 客 户 并 不 关心 你 的 对 象 是 否 符合 Python 风格 。 


示例 9-9 中 定义 的 Vector2d 类 只 是 为 了 教学 ， 我 们 为 它 定 义 了 许多 与 对 象 
表示 形式 有 关 的 特殊 方法 。 不 是 每 个 用 户 自 定义 的 类 都 要 这 样 做 。 


下 一 节 和 暂时 不 继续 定义 Vector2d 类 了 ， 我 们 将 讨论 Python 对 私有 属性 
( 带 两 个 下 划 线 前 级 的 属性 ， 如 self. x) 的 设计 方式 及 其 缺点 。 


9.7 ”Python 的 私有 属性 和 “ 受 保护 的 ”属性 


Python 不 能 像 Java 那样 使 用 private 修饰 符 创建 私有 属性 ， 但 是 Python 
有 个 简单 的 机 制 ， 能 避免 子 类 意外 获 盖 “私有 ”属性 。 


举 个 例子 。 有 人 编写 了 一 个 名 为 Dog 的 类 ， 这 个 类 的 内 部 用 到 了 mood 实例 
属性 ， 但 是 没有 将 其 开放 。 现 在 ， 你 创建 了 Dog 类 的 子 类 : Beagle。 如 果 
你 在 毫 不 知情 的 情况 下 又 创建 了 名 为 mood 的 实例 属性 ， 那 么 在 继承 的 方法 
中 就 会 把 Dog 类 的 mood 属性 覆盖 掉 。 这 是 个 难以 调试 的 问题 。 

为 了 避免 这 种 情况 ， 如 果 以 __mood 的 形式 (两 个 前 性 下划线 ， 尾 部 没有 或 
最 多 有 一 个 下 划 线 ) 命名 实例 属性 ，Python 会 把 属性 名 存 入 实例 的 
_dict _ 属 性 中 ， 而 且 会 在 前 面 加 上 一 个 下 划 线 和 类 名 。 因 此 ， 对 Dog 
类 来 说 ，__mood 会 变 成 _Dog mood; 对 Beagle 类 来 说 ， 会 变 成 
_Beagle mood。 这 个 语言 特性 叫 名 称 改写 (name mangling) ° 


示例 9-10 以 示例 9-7 中 定义 的 Vector2d 类 为 例 来 说 明 名 称 改写 。 
示例 9-10 私有 属性 的 名 称 会 被 “改写 "， 在 前 面 加 上 下 划 线 和 类 名 


>>> v1 = Vector2d(3, 4) 
>>> V1, dict__ 


{'_Vector2d__y': 4.0, '_Vector2d__x': 3.0} 
>>> vi._Vector2d__x 
3.0 


名 称 改写 是 一 种 安全 措施 ， 不 能 保证 万 无 一 失 : 它 的 目的 是 避免 意外 访问 ， 
不 能 防止 故意 做 错 事 (图 9-1 也 是 一 种 保护 装置 ) 。 


图 9-1: 把 手 上 的 盖子 是 种 保护 装置 ， 而 不 是 安全 装置 : 它 能 避免 意外 触动 
把 手 ， 但 是 不 能 防止 有 意 转 动 


如 示例 9-10 中 的 最 后 一 行 所 示 ， 只 要 知道 改写 私有 属性 名 的 机 制 ， 任 何人 都 
能 直接 读 取 私有 属性 一 一 这 对 调试 和 序列 化 倒是 有 用 。 此 外 ， 只 要 编写 


vi._Vector__x = 7 这 样 的 代码 ， 就 能 轻松 地 为 Vector2d 实例 的 私有 
分 量 直 接 赋 值 。 如 果真 在 生产 环境 中 这 么 做 了 ， 出 问题 时 可 别 抱怨 。 


不 是 所 有 Python 程序 员 都 喜欢 名 称 改 写 功 能 ， 也 不 是 所 有 人 都 喜欢 

self. x 这 种 不 对 称 的 名 称 。 有 些 人 不 喜欢 这 种 句法 ， 他 们 约定 使 用 一 个 
下 划 线 前 缀 编写 “ 受 保护 ”的 属性 (如 self. x) 。 批 评 使 用 两 个 下 划 线 这 
种 改写 机 制 的 人 认为 ， 应 该 使 用 命名 约定 来 避免 意外 歼 盖 属性 。 本 章 开 头 引 
用 了 多 产 的 Jan Bicking 的 一 句 话 ， 那 句 话 的 完整 表述 如 下 : 


绝对 不 要 使 用 两 个 前 导 下 划 线 ， 这 是 很 烦人 的 目 私 行为 。 如 果 担 心 名 称 
冲突 ， 应 该 明确 侯 用 一 种 名 称 改 号 方式 (如 

_MyThing_blahblah) "这 其 实 写 使 用 双 下 划 线 一 样 ， 不 过 目 己 定 的 
规则 比 双 下 划 线 易于 理解 。 


H Paste 的 风格 指南 。 
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者 


Python 解释 器 不 会 对 使 用 单个 下 划 线 的 属性 名 做 特殊 处 理 ， 不 过 这 是 很 多 
Python 程序 员 严 格 遵 守 的 约定 ， 他 们 不 会 在 类 外 部 访问 这 种 属性 。 ET 
用 一 个 下 划 线 标记 对 象 的 私有 属性 很 容易 ， 怠 像 遵守 使 用 全 大 写字 母 编 写 稼 
量 那样 容易 。 

8 不 过 在 模块 中 ， | 一 个 前 导 下 划 线 的 话 ， 的 确 会 有 影响 : 对 from mymod import * 


来 说 ，mymod 中 前 组 为 下 划 线 的 名 称 不 会 被 导入 。 然而， 依旧 可 以 使 用 From mymod import 
pe 将 {5A ° Python 教程 的 6.1 节 “More on Modules” 说 明了 这 一 点 。 


Python 文档 的 某 些 角 落 把 使 用 一 个 下 划 线 前 缀 标记 的 属性 称 为 “ 受 保护 的 ” 属 
性 。9? 使 用 self. _x 这 种 形式 保护 属性 的 做 法 很 常见 ， 但 是 很 少 有 人 把 这 种 
属性 叫 作 “ 受 保护 的 ”属性 。 有 些 人 甚至 将 其 称 为 "私有 ”属性 。 


9gettext 模块 中 就 有 一 个 例子 。 


总 之 ，Vector2d 的 分 量 都 是 “私有 的 >， 而 且 Vector2d SR BN ea" NA 
的 ”。 我 用 了 两 对 引号 ， 这 是 因为 并 不 能 真正 实现 私有 和 不 可 变 。 


2 如 果 这 个 说 法 让 你 感到 Tz 旦 让 你 觉得 在 这 方面 Python 应 该 回 Java 看 齐 的 话 ， 那 么 别 去 读本 
章 的 “杂谈 ”， 我 在 其 中 对 Java 的 cee et NORRIE oS 


下 面 继续 定义 Vector2d 类 。 在 最 后 一 节 中 ， 我 们 将 讨论 一 个 特殊 的 属性 
(不 是 方法 ) ， 它 会 影响 对 象 的 内 部 存储 ， 对 内 存 用 量 可 能 也 有 重大 影响 ， 
不 过 对 对 象 的 公开 接口 没什么 影响 。 这 个 属性 是 __slots__ 


98 fA slots 类 属性 节省 空间 


默认 情况 下 ，Python 在 各 个 实例 中 名 为 __dict__ 的 字典 里 存储 实例 属 
性 。 如 3.9.3 节 所 述 ， 为 了 使 用 改 层 的 散 列 表 提 升 访问 速度 ， 字 典 会 消耗 大 
量 内 存 。 如 采 要 处 理 数 百 万 个 属性 不 多 的 实例 ， 通 过 __slots_ 类 属性 ， 
能 节省 大 量 内 存 ， 方 法 是 让 解释 器 在 元 组 中 存储 实例 属性 ， 而 不 用 字典 。 


Pr 继承 自 超 类 的 __slots__ 属性 没有 效果 。Python 只 会 使 用 各 个 
类 中 定义 的 __slots 属性 。 


定义 __slots__ 的 方式 是 ， 创 建 一 个 类 属性 ， 使 用 __slots _ 这 个 名 
字 ， 并 把 它 的 值 设 为 一 个 字符 串 构 成 的 可 迭代 对 象 ， 其 中 各 个 元 素 表示 各 个 
实例 属性 。 我 喜欢 使 用 元 组 ， 因 为 这 样 定义 的 __slots _ 中 所 含 的 信息 不 
会 变化 ， 如 示例 9-11 所 示 。 


示例 9-11 vector2d_v3_slots.py: 只 在 Vector2d 类 中 添加 了 
_ slots 属性 


class Vector2d: 
— slots = ('_x', '_y') 


typecode = 'd' 


# 下 面 是 各 个 方法 


姑 排 版 需要 而 省 略 了 ) 


~ 


ARE __slots__ 属 性 的 目的 是 告诉 解释 器 :“ 这 个 类 中 的 所 有 实例 
属性 都 在 这 儿 了 ! ”这 样 ，Python 会 在 各 个 实例 中 使 用 类 似 元 组 的 结构 存储 
实例 变量 ， 从 而 避免 使 用 消耗 内 存 的 __dict 属性。 如 果 有 数 百 万 个 实例 


同时 活动 ， 这 样 做 能 广 省 大 量 内 存 。 


A 如 果 要 处 理 数 百 万 个 数值 对 象 ， 应 该 使 用 NumPy 数组 (参见 
2.9.3 17) ° NumPy 数组 能 高 效 使 用 内 存 ， 而 且 提 供 了 高 度 优化 的 数值 
处 理 函 数 ， 其 中 很 多 都 一 次 操作 整个 数组 。 我 定义 Vector2d 类 的 目的 
征讨 论 特 殊 方 法 ， 因 为 我 不 太 想 随便 举 些 例子 。 


在 示例 9-12 中 ， 我 们 运行 了 两 个 构建 列表 的 脚本 ， 这 两 个 脚本 都 使 用 列表 推 
导 创建 10 000 000 个 Vector2d 实例 。mem _test.py 脚本 的 命令 行 参数 是 一 
个 模块 的 名 字 ， 模 块 中 定义 了 不 同 版 本 的 Vector2d 类 。 第 一 次 运行 使 用 的 


是 vector2d_v3.Vector2d 类 (在 示例 9-7 PEM) ， 第 二 次 运行 使 用 的 
HENS slots 的 vector2d v3_slots.Vector2d # 。 


示例 9-12 mem_test.py 使 用 指定 模块 (如 vector2d_v3.py) 中 定义 的 
Vector2d 类 创建 10 000 000 个 实例 


$ time python3 mem_test.py vector2d_v3.py 
Selected Vector2d type: vector2d_v3.Vector2d 
Creating 10,000,000 Vector2d instances 
Initial RAM usage: 5,623, 808 

Final RAM usage: 1,558,482,944 


real 0©m16.721s 

user ©m15.568s 

sys 0m1.149s 

$ time python3 mem_test.py vector2d_v3_slots.py 


Selected Vector2d type: vector2d_v3_slots.Vector2d 
Creating 10,000,000 Vector2d instances 
Initial RAM usage: 5,718,016 

Final RAM usage: 655, 466, 496 


real 0m13.605s 
user 0m13.163s 
sys 0m0.434s 


如 示例 9-12 Prax, Æ 10000 000 个 Vector2d 实例 中 使 用 _ dict_ _ 属性 
时 ，RAM 用 量 高 达 1.5GB; 而 在 Vector2d 类 中 定义 slots _ 属性 之 

Ja, RAM 用 量 降 到 了 655MB ° ISh, 定义 了 __slots _ 属性 的 版 本 运行 
速度 也 更 快 。 这 个 测试 中 使 用 的 mem_test.py 脚本 其 实 只 用 于 加 载 一 个 模 

块 、 检 查 内 存 用 量 和 格式 化 结果 ， 所 用 的 代码 与 本 章 没 有 太 大 关联 ， 因 此 放 
入 附录 A 中 的 示例 A-4 里 。 


Be 在 类 中 定义 ”slots_ ”属性 之 后 ， 实 例 不 能 再 有 _ slots 
中 所 列 名 称 之 外 的 其 他 属性 。 这 只 是 一 个 副作用 , 不 是 _slots _ 7% 
在 的 真正 原因 。 不 要 使 用 _ slots_ _ 属性 禁止 类 的 用 户 新 增 实例 属 
性 。 slots _ 是 用 于 优化 的 ， 不 是 为 了 约束 程序 员 。 


然而 , “节省 的 内 存 也 可 能 被 再 次 吃 掉 ” 如 果 把 ' dict__' 这 个 名 称 添 

加 到 __slots 中， 实例 会 在 元 组 中 保存 各 个 实例 的 属性 ， 此 外 还 支持 动 
态 创建 属性 ， 这 些 属 性 存储 在 常规 的 、 dict_ 中。 当然 ， 把 

' dict _' 添加 到 __slots ”中 可 能 完全 违背 了 初 囊 ， 这 取决 于 各 个 实 
的 静态 属性 和 动态 属性 的 数量 及 其 用 法 。 粗 心 的 优化 甚至 比 提早 优化 还 糟 


此 外 ， 还 有 一 个 实例 属性 可 能 需要 注意 ， 即 ”weakref _ 属 性， 为 了 让 对 
象 文 持 弱 引 用 (S867) ， 必 须 有 这 个 属性 。 用 户 定义 的 类 中 默认 就 有 
_ weakref 属性。 可 是 ， 如 果 类 中 定义 了 _ slots_ 属性， 而 且 想 把 
ee 那么 要 把 '  weakref__' WZ slots __ 


iE, slots _ 属性 有 些 需 要 注意 的 地 方 ， 而 且 不 能 滥用 ， 不 能 使 用 它 
限制 用 户 能 赋值 的 属性 。 处 理 列表 数据 时 __slots__ 属 性 最 有 用 ， 例 如 模 
式 固 定 的 数据 库 记 录 ， 以 及 特大 型 数据 集 。 然 而 ， 如 果 你 经 常 处 理 大 量 数 

据 ， 一 定 要 了 解 一 下 NumpPy; ESN, BUSTER pandas 也 值得 了 解 ， 这 个 库 
可 以 处 理 非 数值 数据 ， 而 且 能 导入 /导出 很 多 不 同 的 列表 数据 格式 。 


slots 的 问题 
总 之 ， 如 果 使 用 得 当 ， slots ”能 显著 节省 内 存 ， 不 过 有 几 点 要 注意 。 


。 每 个 子 类 都 要 定义 __slots _ 属性 ， 因 为 解释 器 会 忽略 继承 的 
_ slots 属性。 


。 实例 只 能 拥有 __slots__ 中 列 出 的 属性 ， 除非 把 '__dict__' 加 入 
— slots 中 (这样 做 束 失 去 了 市 省 内 存 的 功效 ) 。 


。 如 果 不 把 ' weakref__' 加 入 __slots ， 实 例 就 不 能 作为 弱 引 用 
的 目标 。 


如 果 你 的 程序 不 用 处 理 数 百 万 个 实例 ， 或 许 不 值得 费劲 去 创建 不 寻常 的 类 ， 
那 束 禁止 它 创建 动态 属性 或 者 不 支持 弱 引 用 。 与 其 他 优化 措施 一 样 ， 仪 当权 
I 才 应 该 使 用 
__Slots 属性。 


本 章 最 后 一 个 话题 讨论 如 何在 实例 和 子 类 中 覆盖 类 属性 


99 BEARABLE 


Python 有 个 很 独特 的 特性 : 类 属性 可 用 于 为 实例 属性 提供 默认 值 。 
Vector2d 中 有 个 typecode 类 属性 ， bytes_ 方法 两 次 用 到 了 它 ， 而 
且 都 故意 使 用 self .typecode 读 取 它 的 值 。 因 为 Vector2d 实例 本 身 没 
有 typecode 属性 ， 所 以 self .typecode 默认 获取 的 是 
Vector2d.typecode 类 属性 的 值 。 


但 是 ， 如 果 为 不 存在 的 实例 属性 赋值 ， 会 新 建 实例 属性 。 假 如 我 们 为 
typecode 实例 属性 赋值 ， 那 么 同名 类 属性 不 受 影响 。 然 而 ， 自 此 之 后 ， 实 
例 读 取 的 seLf.typecode 是 实例 属性 typecode， 也 就 是 把 同名 类 属性 

遮盖 了 。 借 助 这 一 特性 ， 可 以 为 各 个 实例 的 typecode 属性 定制 不 同 的 值 


Vector2d.typecode 属性 的 默认 值 是 'd'， 即 转换 成 字 节 序列 时 使 用 8 
字 节 双 精 度 浮 点 数 表 示 向 量 的 各 个 分 量 。 如 果 在 转换 之 前 把 Vector2d 实例 
的 typecode 属性 设 为 'f' ， 那 么 使 用 4 字 节 单 精 度 浮 点 数 表示 各 个 分 

量 ， 如 示例 9-13 所 示 。 


[© 


ag 
Bes 我 们 在 讨论 如 何 添加 目 定 义 的 实例 属性 ， 因 此 示例 9-13 使 用 的 
是 示例 9-9 中 不 市 “slots_ 属性 的 Vector2d 类 。 


示例 9-13 设 定 从 类 中 继承 的 typecode 属性 ， 自 定义 一 个 实例 属性 


>>> from vector2d_v3 import Vector2d 
>>> vi = Vector2d(1.1, 2.2) 

>>> dumpd = bytes(v1) 

>>> dumpd 
b'd\x9a\x99\x99\x99\x99\x99\xf1?\x9a\x99\x99\x99\x99\x99\x01@' 
>>> len(dumpd) # @ 

17 

>>> vi.typecode = 'f' #@ 

>>> dumpf = bytes(v1) 

>>> dumpf 
b'f\xcd\xcc\x8ce?\xcd\xcc\x0c@' 

>>> len(dumpf) # © 

9 


>>> Vector2d.typecode # 四 
'q' 


@ 默认 的 字 节 序列 长 度 为 17 SFT ° 
@ 把 v1 实例 的 typecode 属性 设 为 'f'。 
© 现在 得 到 的 字 节 序列 是 9 个 字 节 长 。 


© Vector2d.typecode 属性 的 值 不 变 ， 只 有 v1 实例 的 typecode 属性 
使 用 'f'。 


现在 你 应 该 知道 为 什么 要 在 得 到 的 字 节 序列 前 面 加 上 typecode 的 值 了 : 为 
了 支持 不 同 的 格式 。 


如 果 想 修改 类 属性 的 值 ， 必 须 直 接 在 类 上 修改 ， 不 能 通过 实例 修改 。 如 果 想 
修改 所 有 实例 (没有 rene 实例 变量 ) 的 typecode 属性 的 默认 值 ， 
可 以 这 么 做 : 


>>> Vector2d.typecode = 'f' 


然而 ， 有 种 修改 方法 更 符合 Python 风格 ， 而 且 效 果 持久 ， 也 更 有 针对 性 。 类 

属性 是 公开 的 ， 因 此 会 被 子 类 继承 ， 于 十 经 常会 创建 一 个 子 类 ， 只 用 于 定制 

人 ATE ° Django 基于 类 的 视图 就 大 量 使 用 了 这 个 技术 。 有 具体 做 法 如 示 
| 9-14 所 示 。 


示例 9-14 _ Shortvector2d 是 Vector2d 的 子 类 ， 只 用 于 履 盖 
typecode 的 默认 值 


>>> from vector2d_v3 import Vector2d 
>>> class ShortVector2d(Vector2d): # @ 
typecode = 'f' 


>>> sv = ShortVector2d(1/11, 1/27) # @ 


>>> SV 

ShortVector2d(0.09090909090909091, 0.037037037037037035) # © 
>>> len(bytes(sv)) #® 
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@ }E ShortVector2d 定义 为 Vector2d JTX, RATA% typecode 
类 属性 


@ 为 了 演示 ， 创 建 一 个 Shortvector2d 实例 ， 即 sv ° 
© 查看 sv 的 repr 表示 形式 。 
O 确认 得 到 的 字 节 序列 长 度 为 9 字 节 ， 而 不 是 之 前 的 17 FT ° 


这 也 说 明了 我 在 Vecto2d,，_repr_ 方法 中 为 什么 没有 硬 编 码 
class_name 的 值 ， 而 是 使 用 type(self).__name__ 获取 ， 如 下 所 示 : 


# 在 Vector2d 类 中 定义 


def _repr_ (self): 
class_name = type(self).__name 


return '{}({!r}, {!r})'.format(class_name, *self) 


如 果 硬 编码 class_name 的 值 ， 那 么 Vector2d 的 子 类 (如 
ShortVector2d) 要 覆盖 repr_ 方法 ， 只 是 为 了 修改 class_name 
的 值 。 从 实例 的 类 型 中 读 取 类 名 ，__repr__ 方法 就 可 以 放心 继承 。 


至 此 ， 我 们 通过 一 个 简单 的 类 说 明了 如 何 利用 数据 模型 处 理 Python 的 其 他 功 
Be: 提供 不 同 的 对 象 表示 形式 、 实 现 目 定义 的 格式 代码 、 公 开 只 读 属 性 ， 以 
及 通过 hash() 函数 文 持 集 合 和 映射 。 


9.10 “本章 小 结 


本 章 的 目的 是 说 明 ， 如 何 使 用 特殊 方法 和 约定 的 结构 ， 定 义 行 为 良好 且 符 合 
Python 风格 的 类 。 


vector2d_v3.py (示例 9-9) EK vector2d_v0.py (示例 9-2) 更 符合 Python 风格 
吗 ? vector2d_v3.py 中 的 Vector2d 类 用 到 的 Python 功能 肯定 要 多 ， 但 
Vector2d 类 的 第 一 版 和 最 后 一 版 相 比 哪个 更 符合 风格 ， 要 看 使 用 的 上 下 
X ° Tim Peter 写 的 “Python 之 禅 ”说 道 : 

简洁 胜 于 复杂 。 
符合 Python 风格 的 对 象 应 该 正好 符合 所 需 ， 而 不 是 堆砌 语言 特性 。 


我 不 断 改写 Vector2d REN THEE RX, MEDE Python 的 特殊 方法 
和 编程 约定 。 回 看 表 1-1， 你 会 发 现 本 章 的 几 个 代码 清单 说 明了 下 述 特殊 方 


am 


yE 


。 所 有 用 于 获取 字符 串 和 字 节 序列 表示 形式 的 方法 : __repr_、 
str 、 format 和 bytes ° 


。 把 对 象 转换 成 数字 的 几 个 方法 : _abs 、” bool 和 hash 。 
。 用 于 测试 字 节 序列 转换 和 支持 散 列 (连同 hash_ 方法 ) 的 _ eq 


IAT o 


为 了 转换 成 字 市 序列 ， 我 们 还 实现 了 一 个 备 选 构造 方法 ， 即 
Vector2d.frombytes()， 顺 便 又 讨论 了 @classmethod (十 分 有 用 ) 
和 @staticmethod (不 太 有 用 ， 使 用 模块 层 函 数 更 简单 ) 两 个 装饰 器 。 
frombytes 方法 的 实现 方式 借鉴 了 array .array 类 中 的 同名 方法 。 


我 们 了 解 到 ， 格 式 规范 微 语 言 是 可 扩展 的 ， 方 法 是 实现 _ format__ 7 
法 ， 对 提供 给 内 置 函 数 format(obj，format _spec) 的 
format_spec， 或 者 提供 给 str .format 方法 的 '{:«format_spec»}' 
位 于 代 换 字段 中 的 <format_spec> 做 简单 的 解析 。 

为 了 把 Vector2d 实例 变 成 可 散 列 的 ， 我 们 先 让 它们 不 可 变 ， 至 少 要 把 x 
Al y 设 为 私有 属性 ， 再 以 只 读 特性 公开 ， 以 防 意外 修改 它们 。 随 后 ， 我 们 实 
现 了 __hash__ 方法 ,使 用 推荐 的 异 或 运算 符 计算 实 例 属 性 的 散 列 值 。 
接着 ， 我 们 讨论 了 如 何 使 用 __slots _ 属性 节省 内 存 ， 以 及 这 么 做 要 注意 
的 问题 。__slots__ 属性 有 点 坏 手 ， 因 此 仅 当 处 理 特别 多 的 实例 ( 数 百 万 
个 ， 而 不 是 儿 千 个 ) 时 才 建 议 使 用 。 


最 后 ， 我 们 说 明了 如 何 通 过 访问 实例 属性 (如 self.typecode) FARE 
性 。 我 们 先 创建 一 个 实例 属性 ， 然 后 创建 子 类 ， 在 类 中 履 盖 类 属性 。 


本 章 多 次 提 到 ， 我 编写 代码 的 方式 是 为 了 举例 说 明 如 何 编写 标准 Python 对 象 
的 API。 如 果 用 一 句 话 总 结 本 章 的 内 容 ， 那 就 是 : 


要 构建 符合 Python 风格 的 对 象 ， 就 要 观察 真正 的 Python 对 象 的 行为 。 
一 一 古老 的 中 国 谚语 


9.11 ”延伸 阅读 
本 章 介绍 了 数据 模型 的 几 个 特殊 方法 ， 因 此 主要 参考 资料 与 第 1 章 一 样 ， 阅 
读 那些 资料 能 对 这 个 话题 有 个 整体 了 解 。 方 便 起 见 ， 我 再 次 给 出 之 前 推荐 的 
四 个 资料 ， 同 时 再 多 加 几 个 。 

Python 语言 参考 手册 中 的 “Data Model” 一 章 

本 章 用 到 的 方法 大 部 分 见于 “3.3.1. Basic customization” 

《Python 技术 手册 (第 2 版 ) 》，Alex Martelli 著 

虽然 这 本 书 只 泗 盖 Python 2.5 (4 2 版 ) ， 但 是 对 数据 模型 做 了 深入 说 
明 。 基 本 的 概念 都 是 一 样 的， 而 且 自 Python 2.2 起 〈 这 一 版 的 内 置 类 型 和 用 
户 定义 的 类 兼容 性 变 得 更 好 ) ， 数 据 模型 的 大 多 数 API 完全 没 变 。 


《Python Cookbook (第 3 版 ) 中 文 版 》，David Beazley 和 Brian K. Jones 
著 


通过 诀窍 来 演示 现代 化 的 编程 实践 。 尤 其 是 第 8 章 “ 类 与 对 象 ”， 其 中 有 
好 几 个 方案 与 本 章 讨论 的 话题 有 关 。 


《Python 参考 手册 〈 第 4 版 ) ) , David Beazley 3 
详细 说 明了 Python 2.6 和 Python 3 的 数据 模型 。 


本 章 泗 盖 了 与 对 象 表示 形式 有 关 的 全 部 特殊 方法 , 唯 有 __index _ 除 外 。 
这 个 方法 的 作用 是 强制 把 对 象 转换 成 整数 索引 ， 在 特定 的 序列 切片 场景 中 使 
用 ， 以 及 满足 Numpy 的 一 个 需求 。 在 实际 编程 中 ， 你 我 都 不 用 实现 
index _ 方法， 除非 决定 新 建 一 种 数值 类 型 ， 并 想 把 它 作 为 参数 传 给 
_getitem _ 方法。 如果 好 奇 的 话 ， 可 以 阅读 A.M.Kuchling 写 的 “What's 
New in Python 2.5”， 这 篇 文章 做 了 简要 说 明 ; 此 外 ， 还 可 以 阅读 “PEP 357 一 
Allowing Any Object to be Used for Slicing”， 这 份 PEP 从 C 语言 扩展 的 实现 
者 和 NumPy 的 作者 Travis Oliphant 的 角度 详 述 了 对 index__ 方法 的 需 
求 。 


意识 到 应 该 区 分 字符 串 表示 形式 的 早期 语言 是 Smalltalk。1996 年 ，Bobby 
Woolf 写 了 一 篇 题 为 “How to Display an Object as a String: printString and 
displayString” 的 文 草 ， 他 在 这 篇 文章 中 讨论 了 Smalltalk 对 printString 和 
displayString 方法 的 实现 。 在 9.1 TWH repr() M str() 的 作用 

时 ， 我 从 这 篇 文章 中 借用 了 言 简 意 凡 的 表述 ， 即 “便于 开发 者 理解 的 方 

式 ” 和 “便于 用 户 理解 的 方式 ”。 


特性 有 助 于 减少 前 期 投入 


在 Vector2d 类 的 第 一 版 中 ，x 和 y 属性 是 公开 的 ; 默认 情况 下 ， 
Python 的 所 有 实例 属性 和 类 属性 都 是 公开 的 。 这 对 向 量 来 说 是 合理 的 ， 
因为 我 们 要 能 访问 分 量 。 虽 然 这 些 加 量 是 可 迭代 的 对 象 ， 而 且 可 以 拆 包 
成 一 对 变量 ， 但 是 还 要 能 够 通过 my_vector.x 和 my_vector .y 获取 
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如 果 觉 得 应 该 避免 意外 更 新 x 和 yy 属性 ， 可 以 实现 特性 ， 但 是 代码 的 其 
他 部 分 没有 变化 ，Vector2d 的 公开 接口 也 不 受 影 响 ， 这 一 点 从 doctest 
中 可 以 得 知 。 我 们 依然 能 够 访问 my_vector.x 和 my_vector.y。 


这 表明 我 们 可 以 先 以 最 简单 的 方式 定义 类 ， 也 就 是 使 用 公开 属性 ， 因 为 
如 采 以 后 需要 对 读 值 方法 和 设 值 方 法 增加 控制 ， 那 就 可 以 实现 特性 ， 这 


(如 x 和 y) 与 对 象 交 互 的 代码 没有 
影响 。 


Java 语言 采用 的 方式 则 截然 相反 : Java 程序 员 不 能 先 定义 简单 的 公开 属 
性 ， 然 后 在 需要 时 再 实现 特性 ， 因 为 Java 语言 没有 特性 。 因 此 ， 在 Java 
中 编写 读 值 方法 和 设 值 方法 是 常态 ， 就 算 这 些 方法 没 做 什么 有 用 的 事情 
也 得 这 么 做 ， 因 为 API 不 能 从 简单 的 公开 属性 变 成 读 值 方法 和 设 值 方 

法 ， 同 时 又 不 影响 使 用 那些 属性 的 代码 。 


此 外 ， 本 书 的 技术 审 校 Alex Martelli 指出 ， 到 处 都 使 用 读 值 方法 和 设 值 
方法 古 轧 续 的 行为 。 如 果 想 编写 下 面 的 代码 : 


>>> my_object.set_foo(my_object.get_foo() + 1) 


这 样 做 就 行 了 : 


>>> my_object.foo += 1 


维基 的 发 明 人 和 极限 编程 先驱 Ward Cunningham 建议 问 这 个 问题 : “做 
这 件 事 最 简单 的 方法 是 什么 ? ” 意 即 ， 我 们 应 该 把 焦点 放 在 目标 上 。 工 
提前 实现 设 值 方法 和 读 值 方法 偏离 了 目标 。 在 Python 中 ， 我 们 可 以 先 使 
用 公开 属性 ， 然 后 等 需要 时 再 变 成 特性 。 


私有 属性 的 安全 性 和 保障 性 


Perl 不 会 强制 你 保护 隐私 。 你 应 该 待 在 客厅 外 ， 因 为 你 没收 到 邀 
请 ， 而 不 是 因为 里 面 有 把 枪 。 


Larry Wall 
Perl 之 父 


Python 和 Perl 在 很 多 方面 的 做 法 是 截然 相反 的 ， 但 是 Larry 和 Guido 似 
平 都 同意 要 保护 对 象 的 隐私 。 


这 些 年 我 教 过 许多 Java 程序 员 学 习 Python， 我 发 现 很 多 人 都 对 Java $e 
供 的 隐私 保障 推崇 备至 。 可 事实 是 ，Java 的 private 和 protected 
修饰 符 往往 只 是 为 了 防止 意外 〈 即 一 种 安全 措施 ) 。 只 有 使 用 安全 管理 


器 部 署 应 用 时 才能 保障 绝对 安 È, 防止 恶意 访问 ; 但是， 实际 上 很 少 有 
人 这 么 做 ， 即 便 在 企业 中 也 少见 


下 面 通过 一 个 Java 类 证 明 这 一 点 ( 见 示例 9-15) 。 


示例 9-15 Confidential.java: 一 个 Java 类 ， 定 义 了 一 个 私有 字段 ， 
名 为 Secret 


public class Confidential { 


private String secret = ""; 


public Confidential(String text) { 
secret = text.toUpperCase(); 


在 示例 9-15 F, RE text 转换 成 大 写 后 存 入 secret 字段 。 转 换 成 大 
写 是 为 了 表明 secret 字段 中 的 值 全 部 是 大 写 的 。 


我 们 要 使 用 Jython 运行 expose.py 脚本 才能 真正 说 明 问 题 。 那 个 脚本 使 
用 内 省 Java 称 之 为 "反射 >) 获取 私有 字段 的 值 。expose.py 脚本 的 代码 
在 示例 9-16 中 。 


示例 9-16 expose.py: 一 段 Jython 代码 ， 从 另 一 个 类 中 读 取 一 个 私 
有 字段 


import Confidential 


message = Confidential('top secret text') 
secret_field = Confidential.getDeclaredField('secret') 


secret_field.setAccessible(True) # 攻破 防线 
print 'message.secret =', secret_field.get(message) 


运行 示例 9-16 得 到 的 结果 如 下 : 


$ jython expose.py 
message.secret = TOP SECRET TEXT 


字符 串 'TOP SECRET TEXT' M Confidential 类 的 私有 字段 
secret 中 读 了 有 取 。 


这 里 没有 什么 墨 魔 法 : expose.py 脚本 使 用 Java 反射 API 获取 私有 字段 
'secret' 的 引用 ， 然 后 调用 
'secret_field.setAccessible(True)' 把 它 设 为 可 读 的 。 显 
然 ， 使 用 Java 代码 也 能 做 到 这 一 点 (不 过 所 需 的 代码 行 数 是 这 里 的 三 倍 
多 ， 参 见 本 书 代 码 仓 库 里 的 Expose.java 文件 。 


如 果 这 个 Jython 脚本 或 Java 主 程序 (如 Expose.class) 在 
SecurityManager 的 监管 下 运行 ，. setAccessible(True) 这 个 关键 
的 调用 就 会 失败 。 但 是 现实 中 ， 很 少 有 人 部 署 Java 应 用 时 会 使 用 
SecurityManager, Java applet 除外 (还 记得 这 个 吗 ? ) o 


我 的 观点 是 ，Java 中 的 访问 控制 修饰 符 基 本 上 也 是 安全 措施 ， 不 能 保证 
万 无 一 失 一 一 人 至少 实 践 中 是 如 此 。 因 此 ， 安 心 享用 Python 提供 的 强大 功 
能 吧 ， 放 心 去 用 吧 ! 


1 参见 “Simplest Thing that Could Possibly Work: A Conversation with Ward Cunningham, Part V” ° 


第 10 章 序列 的 修改 、 散 列 和 切片 


不 要 检查 它 是 不 是 鸭子 、 它 的 叫 声 像 不 像 鸭 子 、 CATERER 1 Bag 
子 ， 等 等 。 具 体检 查 什么 取决 于 你 想 使 用 语言 的 哪些 行为 
(one lang.python, 2000 “7 A 26 H) 


Alex Martelli 


本 章 将 以 第 9 章 定 义 的 二 维 向 量 Vector2d 类 为 基础 ， 向 前 迈 出 一 大 步 ， 定 
义 表示 多 维 癌 量 的 Vector 类 。 这 个 类 的 行为 与 Python 中 标准 的 不 可 变局 
平 序列 一 样 。Vector 实例 中 的 元 素 是 浮 点 数 ， 本 章 结束 后 Vector 类 将 文 
持 下 述 功能 ; 


基本 的 序列 协议 一 一 len 和 getitem_ 
正确 表述 拥有 很 多 元 素 的 实例 

适当 的 切片 支持 ， 用 于 生成 新 的 Vector 实例 
综合 各 个 元 素 的 值 计 算 散 列 值 
。 上 自 定 义 的 格式 语言 扩展 


此 外 ， 我 们 还 将 通过 getattr_ “方法 实现 属性 的 动态 存 取 ， 以 此 取代 
Vector2d 使 用 的 只 读 特性 一 一 不 过 ， 序 列 类 型 通 稼 不 会 这 么 做 。 


在 大 量 代 码 之 间 ， 我 们 将 穿插 讨论 一 个 概念 : 把 协议 当 作 正式 接口 。 我 们 将 
说 明 协 议和 鸭子 类 型 之 间 的 关系 ， 以 及 对 自 定 义 类 型 的 实际 影响 。 


我 们 开始 吧 ! 
三 维 以 上 向 量 的 应 用 


谁 需 要 1000 维 向 量 呢 ? 提示 : 不 是 3D CARA! 不 过 ,信息 检索 领域 经 
常 使 用 n 维 向 量 (n 是 很 大 的 数 ) ， 查 询 的 文档 和 文本 使 用 向 量 表示 ， 
一 个 单词 一 个 维度 。 这 叫 向 量 空间 模型 。 在 这 个 模型 中 ， 一 个 关键 的 相 
关 指 标 是 余弦 相关 性 ( 即 查 询 向 量 与 文档 向 量 夹 角 的 余弦 ) 。 夹 角 越 
小 ， 余 弦 值 越 趋 近 于 1， 文 档 与 查询 的 相关 性 就 越 大 。 


不 过 ， 本 章 定义 的 Vector 类 是 为 了 教学 而 举 的 例子 ， 不 会 涉及 很 多 数 
学 原理 。 我 们 的 目的 是 以 序列 类 型 为 背景 说 明 Python 的 几 个 特殊 方法 。 
如 果 在 实际 使 用 中 需要 做 向 量 运 算 ， 应 该 使 用 NumPy 和 SciPy ° Radim 


Rehurek 开发 的 PyPI 包 gensim 使 用 NumPy 和 SciPy 实现 了 用 于 处 理 目 
然 语 言 和 检索 信息 的 同 量 空间 模型 。 


10.1 Vector 类 : 用 户 定 义 的 序列 类 型 


我 们 将 使 用 组 合 模式 实现 Vector 类 ， 而 不 使 用 继承 。 癌 量 的 分 量 存 储 在 浮 
所 数 数组 中 ， 而 且 还 将 实现 不 可 变局 平 序列 所 需 的 方法 。 


不 过 ， 在 实现 序列 方法 之 前 ， 我 们 要 确保 Vector 类 与 前 一 章 定 义 的 
Vector2d 类 兼容 ， 除 非 有 些 地 方 让 二 者 兼容 没有 什么 意义 。 


10.2 ”Vector 类 第 1 版 : 与 Vector2d 类 兼容 
Vector 类 的 第 1 版 要 尽量 与 前 一 章 定义 的 Vector2d 类 兼容 。 


然而 我 们 会 故意 不 让 Vector 的 构造 方法 与 Vector2d 的 构造 方法 兼容 。 
为 了 编写 Vector(3，4) 和 Vector(3，4，5) 这 样 的 代码 ， 我 们 可 以 让 
init_ ”方法 接受 任意 个 参数 (通过 *args) ; 但 是 ， 序 列 类 型 的 构造 方 
法 最 好 接受 可 迭代 的 对 象 为 参数 ， 因 为 所 有 内 置 的 序列 类 型 都 是 这 样 做 的 。 
示例 10-1 展示 了 Vector 类 的 几 种 实例 化 方式 。 


示例 10-1 测试 Vector. init 和 Vector. repr 方法 


>>> Vector([3.1, 4.2]) 
Vector([3.1, 4.2]) 
>>> Vector((3, 4, 5)) 


Vector([3.0, 4.0, 5.0]) 
>>> Vector(range(10) ) 
Vector([0.0, 1.0, 2.0, 3.0, 4.0, ...]) 


除了 新 构造 方法 的 签名 外 ， 我 还 确保 了 传 入 两 个 分 量 (如 Vector([3， 
4])) 时 ,Vector2d 类 (如 Vector2d(3，4)) 的 每 个 测试 都 能 通过 ， 
而 且 得 到 相同 的 结果 。 


BRA 


如 果 Vector 实例 的 分 量 超过 6 个 ，repr() 生成 的 字符 串 就 会 使 用 

. 省 略 一 部 分 ， 如 示例 10-1 HRS 行 所 示 。 包 含 大 量 元 素 的 集 
合 类 型 一 定 要 这 么 做 ， 因为 字符 串 表示 形式 是 用 于 调试 的 (因此 不 想 让 
大 型 对 象 在 控制 台 或 日 志 中 输出 几 千 行内 容 ) 。 使 用 reprlib 模块 可 
以 生成 长 度 有 限 的 表示 形式 ， 如 示例 10-2 所 示 。 


在 Python 2 中 ，repr1ib 模块 的 名 字 是 repr。2to3 工具 能 自动 重 写 
repr 导入 的 内 容 。 


示例 -2 是 第 1 版 Vector 类 的 实现 代码 (以 示例 9-2 和 示例 9-3 中 的 代码 
为 基础 ) 。 


示例 10-2 vector_v1.py: 从 vector2d_v1.py 衍生 而 来 


from array import array 
import reprlib 
import math 


class Vector: 
typecode = 'd' 


def _init_ (self, components): 
self. components = array(self.typecode, components) @ 


def _iter_ (self): 
return iter(self._components) @ 


def _repr_ (self): 
components = reprlib.repr(self._components) © 
components = components[components.find('['):-1] ©@ 
return 'Vector({})'.format(components) 


def _str_ (self): 
return str(tuple(self)) 


def _ bytes_ (self): 
return (bytes([ord(self.typecode)]) + 
bytes(self._components)) © 


def _eq_ (self, other): 
return tuple(self) == tuple(other) 


def _abs_ (self): 
return math.sqrt(sum(x * x for x in self)) © 


def _ bool (self): 
return bool(abs(self)) 


@classmethod 

def frombytes(cls, octets): 
typecode = chr(octets[0]) 
memv = memoryview(octets[1:]).cast(typecode) 
return cls(memv) © 


@ self. components 是 “ 受 保 护 的 ”实例 属性 ， 把 Vector 的 分 量 你 存在 
一 个 数组 中 。 


@ 为 了 迭代 ， 我 们 使 用 self._components 构建 一 个 迭代 器 


liter() 函数 和 iter_ ”方法 在 第 14 章 讨论 。 


© 使 用 reprlib.repr() 函数 获取 self._components 的 有 限 长 度 表示 
形式 (如 array('d'，[0.0, 1.0, 2.0, 3.0, 4.0, ...])) ° 


O 把 字符 串 揪 入 Vector 的 构造 方法 调用 之 前 ， 去 掉 前 面 的 array('d' 和 
后 面 的 )。 


© 直接 使 用 self._components 构建 bytes 对 象 。 


能 使 用 hypot 方法 了 ， 因 此 我 们 先 计算 各 分 量 的 平方 之 和 ， 然 后 再 使 
Pf is 方法 开平 方 。 


@ 我 们 只 需 在 Vector2d.frombytes 方法 的 基础 上 改动 最 后 一 行 ， 直接 
把 memoryview 传 给 构造 方法 ， 不 用 像 前 面 那样 使 用 * 拆 包 。 


我 使 用 reprlib.repr 的 方式 需要 做 些 说 明 。 这 个 函数 用 于 生成 大 型 结构 
或 递归 结构 的 安全 表示 形式 ， 它 会 限制 输出 字符 串 的 长 度 ， 用， ' 表示 
截断 的 部 分 。 我 希望 Vector 实例 的 表示 形式 是 Vector ( [3.0, 4.0, 
5.0]) me, MWA Vector(array('d', [3.0, 4.0, 5.0])), 
为 Vector S2 fil] PAVS2Z8 ce SAA o AACN PE TEA De A A ATHA 
a Vector 对 象 是 一 样 的 ， 所 以 我 选择 使 用 更 简单 的 句法 ， 即 传 入 列表 参 


编写 repr_ ”方法 时 ， 本 可 以 使 用 这 个 表达 式 生 成 简化 的 Components 
显示 形式 : reprlib.repr(list(self._components)) ° Ai, ix“ 
做 有 点 浪费 ， 因 为 要 把 self._components 中 的 每 个 元 素 复 制 到 一 个 列表 
中 ， 然 后 使 用 列表 的 表示 形式 。 我 没有 这 么 做 ， 而 是 直接 把 


self._components 传 给 reprlib.repr 函数 ， 然 后 去 掉 [] 外 面 的 字 
符 ， 如 示例 10-2 中 repr_ ”方法 的 第 二 行 所 示 。 


A 调用 repr () 函数 的 目的 是 调试 ， 因 此 绝对 不 能 抛 出 异常 。 如 果 
repr_ “方法 的 实现 有 问题 ， 那 么 必须 处 理 ， 尽 量 输出 有 用 的 内 容 ， 
让 用 户 能 够 识别 目标 对 象 。 


注意 str 、 eq 和 bool 方法 与 Vector2d 类 中 的 一 样 ， 
而 frombytes 方法 也 只 变 了 一 个 字符 (最 后 一 行 把 * EHT) 。 这 是 
Vector2d 可 迭代 的 好 处 之 一 。 


顺便 说 一 下 ， 我 们 本 可 以 让 Vector 继承 Vector2d， 但 是 我 没 这 么 做 ， 原 
因 有 二 。 其 一 ， 两 个 构造 方法 不 兼容 ， 因 此 不 建议 继承 。 这 一 点 可 以 通过 适 
xA init 方法 的 参数 解决 ， 不 过 第 二 个 原因 更 重要 : 我 想 把 
Vector 类 当 作 单独 的 示例 ， 以 此 实现 序列 协议 。 接 下 来 ,我们 先 讨论 协 议 
这 个 术语 ， 然 后 实现 序列 协议 。 


10.3 ”协议 和 鸭子 类 型 


在 第 1 章 我 们 就 说 过 ， 在 Python 中 创建 功能 完善 的 序列 类 型 无 需 使 用 继承 ， 
只 需 实 现 符合 序列 协议 的 方法 。 不 过 ， 这 里 说 的 协议 是 什么 呢 ? 


在 面向 对 象 编程 中 ， 协 议 是 非 正 式 的 接口 ， 只 在 文档 中 定义 ， 在 代码 中 不 定 
义 。 例 如 ，Python 的 序列 协议 只 需要 len 和 getitem _ 两 个 方 
法 。 任 何 类 〈 如 Spam) ， 只 要 使 用 标准 的 签名 和 语义 实现 了 这 两 个 方法 ， 
就 能 用 在 任何 期 待 序列 的 地 方 。Spam 是 不 是 哪个 类 的 子 类 无 关 紧 要 ， 只 要 
提供 了 所 需 的 方法 即 可 。 示 例 1-1 中 见 过 一 例 ， 这 里 再 次 给 出 代码 ， 


如 示例 10-3 所 示 ° 
示例 10-3 示例 1-1 的 代码 ， 为 了 方便 ， 再 次 给 出 


import collections 


Card = collections.namedtuple('Card', ['rank', 'suit']) 


class FrenchDeck: 
ranks = [str(n) for n in range(2, 11)] + list('JQKA' ) 
suits = 'spades diamonds clubs hearts'.split() 


def _init_ (self): 
self._cards = [Card(rank, suit) for suit in self.suits 


for rank in self.ranks] 


def _len_ (self): 
return len(self._cards) 


def _ getitem (self, position): 
return self._cards[position] 


示例 10-3 中 的 FrenchDeck 类 能 充分 利用 Python 的 很 多 功能 ， 因 为 它 实 现 


了 序列 协议 ， 不 过 代码 中 并 没有 声明 这 一 点 。 任何 有 经 验 的 Python 程序 员 只 
要 看 一 眼 就 知道 它 是 序列 ， 即 便 它 是 object 的 子 类 也 无 妨 。 我 们 说 它 是 序 
列 ， 因 为 它 的 行为 像 序列 ， 这 才 是 重点 。 


| 用 的 Alex Martelli 的 帖子 ， 人 们 称 其 为 鸭子 类 型 (duck 
typing 


协议 是 非 正 式 的 ， 没 有 强制 力 ， 因 此 如 果 你 知道 类 的 具体 使 用 场景 ， 通 党 只 
需要 实现 一 个 协议 的 部 分 。 例 如 ， 为 了 文 持 欠 代 ， 只 需 实 现 getitem_— 
方法 ， 没 必要 提供 len__ 方法 。 

下 面 ， 我 们 将 在 Vector 类 中 实现 序列 协议 。 我 们 先 不 支持 完美 的 切片 ， 稍 
后 再 完善 。 


10.4 Vector 类 第 2 版 :可 切片 的 序列 


如 FrenchDeck 类 所 示 ， 如 果 能 委托 给 对 象 中 的 序列 属性 (如 
self._components 数组 ) ， 支 持 序 列 协议 特别 简单 。 下 述 只 有 一 行 代码 
H len 和 getitem_ 方法 是 个 好 的 开始 : 


class Vector: 
# 省 略 了 很 多 行 
# a.. 


def _len_ (self): 
return len(self._components) 


def _ getitem_ (self, index): 
return self._components[index] 


添加 这 两 个 方法 之 后 ， 就 能 执行 下 述 操作 了 : 


>>> v1 = Vector([3, 4, 5]) 
>>> len(v1) 


3 

>>> vi[0], vi[-1] 

(3.0, 5.0) 

>>> v7 = Vector(range(7) ) 
>>> v7[1:4] 

array('d', [1.0, 2.0, 3.0]) 


AUER, MEERLE, DEADE © WR Vector 实例 的 切片 
也 是 Vector 实例 ， 而 不 是 数组 ， 那 就 更 好 了 。 前面 那个 FrenchDeck 类 
也 有 类 似 的 问题 : 切片 得 到 的 是 列表 。 对 Vector 来 说 ， 如 果 切 片 生 成 普通 
的 数组 ， 将 会 缺失 大 量 功能 。 


RA SAE FAR ， 切 片 得 到 的 都 是 各 目 类 型 的 新 实例 ， 而 不 是 其 他 类 


为 了 把 Vector 实例 的 切片 也 变 成 Vector 实例 ， 我 们 不 能 简单 地 委托 给 类 
组 切片 。 我 们 要 分 析 传 给 __getitem_ 方法 的 参数 ， 做 适当 的 处 理 。 


下 面 来 看 Python 如 何 把 my_seq[1:3] 句法 变 成 传 给 
my_seq.__getitem_(...) 的 参数 。 


10.41 切片 原理 
一 例 胜 千 言 ， 我 们 来 看 看 示例 10-4。 
示例 10-4 了 解 getitem__ 和 切片 的 行为 


>>> class MySeq: 
oi def _ getitem (self, index): 
return index # @ 


>>> s = MySeq() 
>>> s[1] #@ 
1 


>>> s[1:4] # © 
slice(1, 4, 


(slice(1, 4, 
>>> $[1:4:2, 7:9] #0 
(slice(1, 4, 2), slice(7, 9, None)) 


° 


@ 在 这 个 示例 中 ，_ getitem_ _ 直接 返回 传 给 它 的 值 


@ 单个 索引 ， 没 什么 新 奇 的 。 
© 1:4 表示 法 变 成 了 slice(1, 4, None)。 
O slice(1, 4, 2) 的 意思 是 从 1 开始 ， 到 4 结束 ， 步 幅 为 2。 


@ 神奇 的 事 发 生 了 :如果 [] PAS, 那么 getitem _ 收 到 的 是 元 
组 。 


@ 元 组 中 甚至 可 以 有 多 个 切片 对 象 。 
现在 ， 我 们 来 仔细 看 看 slice 本 身 ， 如 示例 10-5 所 示 。 
示例 10-5 查看 slice 类 的 属性 


>>> slice #@ 
<class 'slice'> 
>>> dir(slice) 


t ' doc f 
getattribute_', '_gt 
le ', '_l1t__', '__ne_', 
'_ reduce_ex_', ' 
', ' str__', '__subclasshook__', 
'indices', 'start', 'step', 'stop'] 


@ slice 是 内 置 的 类 型 (2.4.2 节 首 次 出 现 ) 。 

@ 通过 审查 slice， 发 现 它 有 start、stop 和 step 数据 属性 ， 以 及 
indices 方法 。 

在 示例 10-5 F, WH dir(slice) 得 到 的 结果 中 有 个 indices 属性 ， 这 


个 方法 有 很 大 的 作用 ， 但 是 鲜 为 人 知 。help(slice.indices) 给 出 的 信 
息 如 下 。 


S.indices(len) -> (start, stop, stride) 


给 定 长 度 为 len 的 序列 ， 计 算 S 表示 的 扩展 切片 的 起 始 (start) 和 
结尾 (stop) 索引 ， 以 及 步 幅 (stride) 。 超 出 边界 的 索引 会 被 截 掉 ， 这 
与 常规 切片 的 处 理 方式 一 样 。 


换 句 话说 ，indices 方法 开放 了 内 轩 序 列 实现 的 棘手 逻辑 ， 用 于 优雅 地 处 
理 缺 失 索 引 和 负数 索引 ， 以 及 长 度 超过 目标 序列 的 切片 。 这 个 方法 会 “ 束 


顿 ?元 组 ， 把 start ` stop 和 stride 都 变 成 非 负 数 ， 而 且 都 落 在 指定 长 
度 序 列 的 边界 内 。 


下 面 举 几 个 例子 。 假 设 有 个 长 度 为 5 的 序列 ， 例 如 'ABCDE ' : 


>>> slice(None, 10, 2).indices(5) # @ 
(0, 5, 2) 


>>> slice(-3, None, None).indices(5) # @ 
(2, 5, 1) 


@ 'ABCDE'[:10:2] 等 同 于 'ABCDE' [0:5:2] 


@ 'ABCDE'[-3:] 等 同 于 'ABCDE' [2:5:1] 


AN 写作 本 书 时 ， 在 线 版 Python 库 参 考 好 像 还 没有 slice.indices 
方法 的 文档 。?*Python Python/C API 参考 手册 中 有 类 似 的 C 语言 函数 的 
文档 ，PySlice_GetIndicesEx。 人 研究 切片 对 象 时 ， 我 在 Python 控制 台中 执 
行 了 dir() 和 help()， 这 才 发 现 slice.indices() 方法 。 这 也 表 
明 交 互 式 控制 台 是 个 有 价值 的 工具 ， 能 发 现 新 事物 。 


2 现在 已 经 有 了 ， 参 见 : https://docs.python.org/3/reference/datamodel.html? 
highlight=indices#slice.indices ° 编者 注 


在 Vector 类 中 无 需 使 用 slice.indices( ) 方法 ， 因 为 收 到 切片 参数 
时 ， 我 们 会 委托 _components 数组 处 理 。 但 是 ， 如 果 你 没有 底层 序列 类 型 
作为 依靠 ， 那 么 使 用 这 个 方法 能 节省 大 量 时 间 。 


现在 我 们 知道 如 何 处 理 切片 了 ， 下 面 来 看 Vector. getitem _ 方法 改进 
后 的 实现 。 


10.4.2 ”能 处 理 切片 的 ”getitem 方法 


示例 10-6 列 出 了 让 Vector 表现 为 序列 所 需 的 两 个 方法 : len 和 
_getitem (后 者 现在 能 正确 地 处理 切片 了 ) 


示例 10-6 ”vector_v2.py 的 部 分 代码 : 为 vector_v1.py 中 的 Vector 类 
( 见 示 例 10-2) 添加 __len 和 getitem _ 方法 


def __ len_ (self): 
return len(self._components) 


def _ getitem_ (self, index): 

cls = type(self) @ 

if isinstance(index, slice): @ 
return cls(self._components[index]) ® 

elif isinstance(index, numbers.Integral): @ 
return self._components[index] © 

else: 
msg = '{cls.__name__} indices must be integers' 
raise TypeError(msg.format(cls=cls)) © 


@ 获取 实例 所 属 的 类 (Bl vector) ， 供 后 面 使 用 。 


@ 如 果 index 参数 的 值 是 slice 对 象 .…... 


©...... 调用 类 的 构造 方法 ， 使 用 _components 数组 的 切片 构建 一 个 新 
Vector 实例 。 


O 如 果 index 是 int 或 其 他 整数 类 型 ...... 3 


3 必须 在 vector_v2.py 的 开头 加 上 import numbers。 一 一 编者 注 


日 那 就 返回 components 中 相应 的 元 素 。 
@ 否则 ， 搜 出 异常 。 


` 大 量 使 用 ijsinstance 可 能 表明 面向 对 象 设计 得 不 好 ， 不 过 在 
__getitem_ 方法 中 使 用 它 处 理 切 片 是 合理 的 。 注 意 ， 示 例 10-6 中 测 
试 时 用 的 是 numbers.Integral， 这 是 一 个 抽象 基 类 (Abstract Base 
Class，ABC) 。 在 isinstance 中 使 用 抽象 基 类 做 测试 能 让 API 更 灵 
活 且 更 容易 更 新 ， 原 因 参 见 第 11 章 。 可 惜 ，Python 3.4 的 标准 库 中 没有 
Slice 的 抽象 基 类 。 


为 了 确定 在 getitem _ 的 else 子 句 中 会 抛 出 哪个 异常 ， 我 在 交互 式 控 
制 台 中 查看 了 'ABC' [1，2] 的 结果 。 我 发 现 ，Python 抛 出 的 是 
TypeError; 我 还 从 错误 消息 中 复制 了 表述 方式 , “indices must be 

integers”。 为 了 创建 符合 Python 风格 的 对 象 ， 我 们 要 模仿 Python 内 置 的 对 


[© 


把 示例 10-6 中 的 代码 添加 到 Vector 类 中 之 后 ， 切 片 行为 就 正确 了 ， 如 示 
fil] 10-7 所 示 。 


示例 10-7 测试 示例 10-6 中 改进 的 Vector. getitem _ 方法 


>>> v7 = Vector(range(7)) 

>>> v7[-1] @ 

6.0 

>>> v7[1:4] @ 

Vector([1.0, 2.0, 3.0]) 

>>> v7[-1:] © 

Vector([6.0]) 

>>> v7[1,2] @ 

Traceback (most recent call last): 


TypeError: Vector indices must be integers 


@ 单个 整数 索引 只 获取 一 个 分 量 ， 值 为 浮 点 数 。 

@ 切片 索引 创建 一 个 新 Vector 实例 。 

O 长 度 为 工 的 切片 也 创建 一 个 Vector 实例 。 

O Vector 不 文 持 多 维 索 引 ， 因 此 索引 元 组 或 多 个 切片 会 抛 出 错误 。 


10.5 Vector 类 第 3 版 : 动态 存 取 属 性 


Vector2d 变 成 Vector 之 后 ， 束 没 办 法 通过 名 称 访 问 同 量 的 分 量 了 (如 
VvV.X 和 v.y) 。 现 在 我 们 处 理 的 向 量 可 能 有 大 量 分 量 。 不 过 ， 若 能 通过 单个 
字母 访问 前 几 个 分 量 的 话 会 比较 方便 。 比 如 , H x` yH zR vio] > 
v[1] 和 v[2]。 


我 们 想 额 外 提供 下 述 句法 ， 用 于 读 取 向 量 的 前 四 个 分 量 : 


>>> v = Vector(range(10) ) 
>>> V.X 
0.0 


>>> V.Y, V.Z, v.t 
(1.0, 2.0, 3.0) 


在 Vector2d 中 ， 我 们 使 用 @property 装饰 器 把 x 和 y 标记 为 只 读 特 性 
( 见 示例 9-7) 。 我 们 可 以 在 Vector 中 编写 四 个 特性 ， 但 这 样 太 麻烦 。 特 
殊 方 法 “getattr_ ”提供 了 更 好 的 方式 。 


属性 查找 失败 后 ， 解 释 器 会 调用 getattr__ Wik: HR, x 
my_obj .x 表达 式 ，Python 会 检查 my_obj 实例 有 没有 名 为 x 的 属性 ， 如 


果 没 有 ， 到 类 (my_obj.__class__) 中 查找 ， 如 果 还 没有 ， 顺 着 继承 树 
继续 查找 。4 如 果 依 旧 找 不 到 ， 调 用 my_obj 所 属 类 中 定义 的 
”getattr_ ”方法 ， 传 入 self 和 属性 名 称 的 字符 串 形式 (如 'x') 。 


4 属性 查找 机 制 比 这 复杂 得 多 ， 复 杂 的 细节 在 第 六 部 分 讲解 。 目 前 知道 这 种 简单 的 说 明 即 可 。 

示例 10-8 中 列 出 的 是 我 们 为 Vector 类 定义 的 __getattr__ 方法。 这 个 
方法 的 作用 很 简单 ， 它 检查 所 查找 的 属性 是 不 是 xyzt 中 的 某 个 字母 ， 如 果 
是 ， 那 么 返回 对 应 的 分 量 。 


示例 10-8 vector_v3.py 的 部 分 代码 :在 vector_v2.py 中 定义 的 Vector 
类 里 添加 __getattr__ 方法 


shortcut_names = 'xyzt' 


def __getattr__(self, name): 
cls = type(self) @ 


if len(name) == 1: @ 


pos = cls.shortcut_names.find(name) © 
if © <= pos < len(self._components): ©@ 
return self. _components[pos | 
msg = '{.__name__!r} object has no attribute {!r}' © 
raise AttributeError(msg.format(cls, name) ) 


@ 获取 Vector， 后 面 待 用 。 
@ 如 果 属 性 名 只 有 一 个 


© 查找 那个 字母 的 位 置 ， str ,find 还 会 定位 'yz'， 但 是 我 们 不 需要 ， 
此 在 前 一 行 做 了 测试 。 


O 如 采 位 置 落 在 范围 内 ， 返 回 数组 中 对 应 的 元 素 。 
O 如 果 测试 都 失败 了 ， 抛 出 AttributeError， 并 指明 标准 的 消息 文本 。 


_getattr__ 方法 的 实现 不 难 ， 但 是 这 样 实现 还 不 够 。 看 看 示例 10-9 中 
古怪 的 交互 行为 。 


示例 10-9 不 恰当 的 行为 : 为 v.x 赋值 没有 抛 出 错误 ， 但 是 前 后 矛盾 


母 ， 可 能 是 shortcut_names 中 的 一 个 。 


“tt 


>>> v = Vector(range(5)) 


@ 使 用 v.x 获取 第 一 个 元 素 (v[0]) ° 
@ H v.x 赋 新 值 。 这 个 操作 应 该 抛 出 异常 
© 读 取 v.x， 得 到 的 是 新 值 ，10 。 

@ 可 是 ， 癌 量 的 分 量 》 


你 能 解释 为 什么 会 这 样 吗 ? 具体 而 言 ， 如 有 果 向 量 的 分 量 数组 中 没有 新 值 ， 为 
什么 v.x 返回 109? 如 果 你 不 能 立即 给 出 解释 ， 再 看 看 示例 10-8 前 面 对 
= 方法 的 说 明 。 原 因 不 是 很 明显 ， 但 却 是 理解 本 书后 面 内 容 的 
重要 基础 。 


示例 10-9 之 所 以 前 后 矛盾 ,是 getattr ”的 运作 方式 导致 的 : 仅 当 对 
象 没有 指定 名 称 的 属性 时 ，Python 才 会 调用 那个 方法 ， 这 是 一 种 后 备 机 制 。 
可 是 , 像 v.x = 10 这 样 赋值 之 后 ，v 对 象 有 x 属性 了 ， 因 此 使 用 v.x 获 
Wx 属性 的 值 时 不 会 调用 _getattr_ 方法 了 ， 解 释 器 直接 返回 绑 定 到 
v.x 上 的 值 ， 即 10。 另 一 方面 ，_getattr_ ”方法 的 实现 没有 考虑 到 
self._components 之 外 的 实例 属性 ， 而 是 从 这 个 属性 中 获取 
shortcut_names 中 所 列 的 “虚拟 属性 ” 


为 了 避免 这 种 前 后 矛盾 的 现象 ， 我 们 要 改写 Vector 类 中 设置 属性 的 逻辑 。 


回想 第 9 章 的 最 后 一 个 Vector2d 示例 中 ， 如 果 为 ,x 或 ,y 实例 属性 赋 
值 ， 会 抛 出 AttributeError。 为 了 避免 靶 义 ,在 Vector 类 中 ， 如 果 为 
名 称 是 单个 小 写字 母 的 属性 赋值 ， 我 们 也 想 抛 出 那个 异常 。 为 此 ， 我 们 要 实 
现 。、setattr_ 方法 ， 如 示例 10-10 所 示 。 


示例 10-10 ”vector_v3.py 的 部 分 代码 : 在 Vector 类 中 实现 
setattr_ _ 方法 


def __setattr__(self, name, value): 
cls = type(self) 
if len(name) == 1: @ 
if name in cls.shortcut_names: @ 


error = 'readonly attribute {attr_name!r}' 
elif name.islower(): © 

error = "can't set attributes 'a' to 'z' in {cls_name!r}" 
else: 

error = '' @ 
if error: © 

msg = error.format(cls_name=cls.__name__, attr_name=name) 


raise AttributeError(msg) 
super().__setattr__(name, value) © 


@ 特别 处 理 名 称 是 单个 字符 的 属性 
@ 如 果 name 是 xyzt 中 的 一 个 ， 设 置 特殊 的 错误 消息 。 
© WF name 是 小 写字 母 ， 为 所 有 小 写字 母 设置 一 个 错误 消息 。 
人 否则， 把 错误 消息 设 为 空 字符 串 。 
O 如果 有 错误 消息 ， 抛 出 AttributeError。 
O 默认 情况 ， 在 超 类 上 调用 __setattr__ 方 法， 提供 标准 行为 。 


~I super() È 男 数 用 于 动态 访问 超 关 的 方法 ， a Python 这 样 支持 多 
重 继承 的 动态 语言 来 说 ， 必 须 能 这 么 做 。 程 序 员 经 常 使 用 这 个 函数 把 子 
类 方法 的 某 些 任务 委托 给 4 超 类 中 适当 的 方法 ， 如 示例 10-10 所 示 。12.2 
节 会 进一步 探讨 super () 函数 。 


为 了 给 AttributeError 选择 错误 消息 ， 我 查看 了 内 置 的 comp1Lex 类 型 
的 行为 因为 complex 对 象 是 不 可 变 的 ， 而 且 有 一 对 数据 属性 : real 和 
imag。 如果 试图 修改 任何 一 个 属性 ，complex 实例 会 抛 出 
AttributeError， 而 且 把 错误 消息 设 为 "can't set attribute" ° m 
如 果 尝 斌 为 受 特性 保护 的 只 读 属性 赋值 ( 像 9.6 那样 做 ) ， 得 到 的 错误 消 
息 是 "readonly attribute"。 在 、 setattr_ _ 方法 中 为 error 字符 
选 词 时 ， 我 参考 了 这 两 个 错误 消息 ， 而 且 更 为 明确 地 指出 了 禁止 赋值 的 属 


注意 ， 我 们 没有 禁止 为 全 部 属性 赋值 ， 只 是 禁止 为 单个 小 写字 母 属 性 赋值 ， 
UPS REEI x` y` zA tHE 


Be 我 们 知道 ， 在 类 中 声明 slots _ 属性 可 以 防止 设置 新 实例 属 
PE; 因此 ， 你 可 能 想 使 用 这 个 功能 ， 而 不 像 这 里 所 做 的 ， 实 现 
__setattr__ 方法。 可 是 ， 正 如 9.8.1 节 所 指出 的 ， 不 建议 只 为 了 避 
免 创建 实例 属性 而 使 用 __slots 属性 。 _slots __ 属性 只 应 该 用 
于 节省 内 存 ， 而 且 仅 当 内 存 严 重 不 足 时 才 应 该 这 么 做 。 


虽然 这 个 示例 不 支持 为 Vector 分 量 赋值 ， 但 是 有 一 个 问题 要 特别 注意 : 多 
数 时 候 ， 如 果实 现 了 getattr_ 方法， 那么 也 要 定义 setattr__F 
法 ， 以 防 对 象 的 行为 不 一 致 。 


如 果 想 允许 修改 分 量 ， 可 以 使 用 __setitem _ 方法 , 支持 v[0] = 1.1 
这 样 的 赋值 ， 以 及 (或 者 ) 实现 __setattr_ 方法 ,支持 VvV.x = 1.1 这 
样 的 赋值 。 不 过 ， 我 们 要 保持 Vector 是 不 可 变 的 ， 因 为 在 下 一 节 中 ， 我 们 
将 把 它 变 成 可 散 列 的 。 


10.6 Vector 类 第 4 版 ， 散 列 和 快速 等 值 测试 


我 们 要 再 次 实现 __hash__ 方法 。 加 上 现 有 的 __eq__ 方 法， 这 会 把 
Vector 实例 变 成 可 散 列 的 对 象 。 


示例 9-8 中 的 __hash__ 方法 简单 地 计算 hash(self.x) ^ 
hash(selLf.y)。 这 一 次 ， 我 们 要 使 用 A ( 异 或 ;运算 符 依 次 计算 各 个 分 量 
的 散 列 值 ， 像 这 样 : vio] ^ v[1] ^ v[2]...。 这 正 是 
functools.reduce 画 数 的 作用 。 之 前 我 说 reduce 没有 以 往 那 么 常用 ,5 
但 是 计算 向 量 所 有 分 量 的 散 列 值 非常 适合 使 用 这 个 函数 。reduce 函数 的 整 
体 思路 如 图 10-1 所 示 。 


35sum、any 和 all 涵盖 了 reduce 的 大 部 分 用 途 。 参 见 5.2.1 节 的 讨论 。 


[全 全 全 全 全 全 


a ee reduce 
© 


图 10-1: 归 约 函数 (reduce ` sunm ` any ~all) 把 序列 或 有 限 的 可 迭代 对 
象 变 成 一 个 聚合 结果 


我 们 已 经 知道 Functools.reduce() 可 以 替换 成 sum( )， 下 面 说 说 它 的 
原理 。 它 的 关键 思想 是 ， 把 一 系列 值 归 约 成 单个 值 。reduce( ) 画 数 的 第 一 
个 参数 是 接受 两 个 参数 的 函数 ， 第 二 个 参数 是 一 个 可 迭代 的 对 象 。 假 如 有 个 
接受 两 个 参数 的 fn 函数 和 一 个 1]st 列表 。 调 用 reduce(fn，1st) AY, 
fn 会 应 用 到 第 一 对 元 素 上 ， 即 fn(1st[9]，1st[1])， 生 成 第 一 个 结果 
r1。 然 后 ，fn 会 应 用 到 r1 和 下 一 个 元 素 上 ,， 即 fn(r1，1Lst[2] )， 生 成 
第 二 个 结果 r2。 接 着 ， 调 用 fn(r2，1st[3])， 生 成 3..…. 直 到 最 后 一 
个 元 素 ， 返 回 最 后 得 到 的 结果 rN e 


使 用 reduce 函数 可 以 计算 5! (5 的 阶乘 ) : 


2*3*4%* 5 # 想 要 的 结果 是 : 5! == 120 


import functools 
functools.reduce(lambda a,b: a*b, range(1, 6)) 


回 到 散 列 间 题 上 。 示 例 10-11 展示 了 计算 聚合 异 或 的 3 种 方式 ， 一 种 使 用 
for 循环 ， 两 种 使 用 reduce Ki ° 


示例 10-11 计算 整数 0~5 的 累计 异 或 的 3 种 方式 


>>> n= 0 

>>> for i in range(1, 6): #@ 
á n^i 

>>> nN 

1 


>>> import functools 
>>> functools.reduce(lambda a, b: a^b, range(6)) # © 


>>> import operator 
>>> functools.reduce(operator.xor, range(6)) #® 
1 


@ 使 用 for WA Aas 2 Ste A ea o 
@ 使 用 functools. reduce KA, 1A EM HR 。 


© (fA functools. reduce 函数 ， 把 lambda 表达 式 换 成 
operator.xor ° 


示例 10-11 中 的 3 种 方式 里 ， 我 最 喜欢 最 后 一 种 ， 其 次 是 for 循环 。 你 呢 ? 


5.10.1 节 讲 过 ，operator 模块 以 函数 的 形式 提供 了 Python 的 全 部 中 组 运算 
符 ， 从 而 减少 使 用 Lambda 表达 式 。 


为 了 使 用 我 喜欢 的 方式 编写 Vector ,，_hash_ 方法 ， 我 们 要 导入 
functools 和 operator 模块 。Vector 类 的 相关 变化 如 示例 10-12 所 
ZR œ 


示例 10-12 ”vector_v4.py 的 部 分 代码 : 在 vector_v3.py 中 Vector 类 的 
基础 上 导入 两 个 模块 , 添加 __hash__ 方法 


from array import array 
import reprlib 

import math 

import functools # @ 
import operator #@ 


class Vector: 
typecode = 'd' 


# 排版 需要 ， 省 略 了 很 多 行 ,. ， 


def _eq_ (self, other): #® 
return tuple(self) == tuple(other) 


def _ hash__(self): 
hashes = (hash(x) for x in self._components) # @ 
return functools.reduce(operator.xor, hashes, 0) #9 


# 省 略 了 很 多 行 ..， 


@ 为 了 使 用 reduce HA, SA functools 模块 。 


@ 为 了 使 用 xor WEL, GA operator 模块 。 


© eq 方法 没 变 ， 我 把 它 列 出 来 是 为 了 把 它 和 __hash__ 方法 放 在 一 
起 ， 因 为 它们 要 结合 在 一 起 使 用 。 


O 创建 一 个 生成 器 表达 式 ， 忆 性 计算 各 个 分 量 的 散 列 值 。 


日 把 hashes 提供 给 reduce 函数 ， 使 用 xor 函数 计算 华 合 的 散 列 值 ， 第 
三 个 参数 ，0 是 初始 值 (参见 下 面 的 警告 框 ) 。 


By 使 用 reduce 函数 时 最 好 提供 第 三 个 参数 ， 
reduce(function，iterable，initializer)， 这 样 能 避免 这 
个 异常 : TypeError: reduce() of empty sequence with no 
initial value (这 个 错误 消息 很 梭 ， 说 明了 问题 ， 还 提供 了 解决 方 
法 ) 。 如 果 序 列 为 空 ，initializer 是 返回 的 结果 ， 否 则 ， 在 归 约 中 
使 用 它 作 为 第 一 个 参数 ， 因 此 应 该 使 用 恒 等 值 。 比 如 ， 对 +、| 和 入 来 
wi, initializer 应 该 是 0; 而 对 * 和 & 来 说 ， 应 该 是 1。 


示例 10-12 中 实现 的 __hash _ 方法 是 一 种 映射 归 约 计算 ( 见 图 10-2) 。 


Cd reduce 
© 


图 10-2: 映射 归 约 : 把 画 数 应 用 到 各 个 元 素 上 ， 生 成 一 个 新 序列 (映射 ， 
map) ， 然 后 计算 聚合 值 〈 归 约 ，reduce) 


map 


映射 过 程 计算 各 个 分 量 的 散 列 值 ， 归 约 过 程 则 使 用 xor 运算 符 聚 合 所 有 散 列 
值 。 把 生成 器 表达 式 替 换 成 map DIE, BR AR EAA T: 
def _ hash_ (self): 


hashes = map(hash, self. components) 
return functools.reduce(operator.xor, hashes) 


本 在 Python 2 中 使 用 map 函数 效率 低 些 ， 因 为 map 函数 要 使 用 结果 
构建 一 个 列表 。 但 是 在 Python 3 F, map 画 数 是 惰性 的 ， 它 会 创建 一 个 
生成 器 ， 按 需 产 出 结果 ， 因 此 能 节省 内 存 一 一 这 与 示例 10-12 中 使 用 生 
成 器 表达 式 定义 __hash__ 方法 的 原理 一 样 。 


既然 讲 到 了 归 约 函数 ， 那 就 把 前 面 草草 实现 的 eq 方法 修改 一 下 ， 减 少 
处 理 时 间 和 内 存 用 量 一 一 至 少 对 大 型 向 量 来 说 是 这 样 。 如 示例 9-2 所 示 ， 
eq 方法 的 实现 可 以 非常 简洁 : 


def _ eq (self, other): 
return tuple(self) == tuple(other) 


Vector2d 和 Vector 都 可 以 这 样 做 ， 它 甚至 还 会 认为 Vector([1，2]) 
和 (1，2) 相等 。 这 或 许 是 个 问题 ， 不 过 我 们 暂且 忽略 。s 可 是 ， 这 样 做 对 
有 几 千 个 分 量 的 Vector 实例 来 说 ， 效 率 十 分 低下 。 上 壕 实现 方式 要 完整 复 
制 两 个 操作 数 ， 构 建 两 个 元 组 ， 而 这 么 做 只 是 为 了 使 用 tuple 类 型 的 
eq 方法 。 对 Vector2d (只 有 两 个 分 量 ) 来 说 ， 这 是 个 捷径 ， 但 是 对 
维 数 很 多 的 向 量 来 说 情况 就 不 同 了 。 示 例 10-13 中 比较 两 个 Vector 实例 
(或 者 比较 一 个 Vector 实例 与 一 个 可 迭代 对 象 ) 的 方式 更 好 。 


a 


$131 节 会 认真 


对 竺 Vector([1，2]) == (1，2) 这 个 问题 。 


示例 10-13 为 了 提高 比较 的 效率 ，Vector. eq _ ”方法 在 for 循环 
中 使 用 zip 画 数 


def _ eq (self, other): 
if len(self) != len(other): #@ 
return False 
for a, b in zip(self, other): #@ 


ifait=b: #6 
return False 
return True #0 


@ 如 有 果 两 个 对 象 的 长 度 不 一 样 ， 那 么 它们 不 相等 。 


@ zip 函数 生成 一 个 由 元 组 构成 的 生成 器 ， 元 组 中 的 元 素来 自 参 数 传 入 的 各 
个 可 迭代 对 象 。 如 有 果 不 熟 悉 Zip 函数 ， 请 阅读 "出色 的 zip 函数 "附注 栏 。 
前 面 比较 长 度 的 测试 是 有 必要 的 ， 因 为 一 旦 有 一 个 输入 耗 尽 ，zip KARZ 
即 停止 生成 值 ， 而 且 不 发 出 警告 。 


只 要 有 两 个 分 量 不 同 ， 返 回 False， 退 出 。 
@ 否则 ， 对 和 象 是 相等 的 。 


示例 10-13 的 效率 很 好 ， 不 过 用 于 计算 聚合 值 的 整个 for 循环 可 以 赫 换 成 一 
J all 函数 调用 : 如 果 所 有 分 量 对 的 比较 结果 都 是 True， 那 么 结果 就 是 
True。 只 要 有 一 次 比较 的 结果 是 False, all 函数 就 返回 False。 使 用 
all É PAIL __eq 方法 的 方式 如 示例 10-14 所 示 。 


示例 10-14 使 用 zip 和 all KAM Vector. eq 方法， 逻辑 
与 示例 10-13 一 样 


def _eq_ (self, other): 
return len(self) == len(other) and all(a == b for a, b in zip(self, 
other ) ) 


注意 ， 首 先 要 检查 两 个 操作 数 的 长 度 是 否 相同 ， 因 为 zip 函数 会 在 最 短 的 那 
个 操作 数 耗 尽 时 停止 。 


我 们 选择 在 vector_v4.py 中 采用 示例 10-14 中 实现 的 eq_ 方法 。 

本 章 最 后 要 像 Vector2d 类 那样 ， 为 Vector 类 实现 format _ 方法。 
出 色 的 zip 函数 
使 用 for | 还 能 避免 很 多 缺陷 ， 但 是 需 
要 一 些 特殊 的 实用 函数 协助 。 其 中 一 个 是 内 置 的 Zip 函数 。 使 用 zip 


函数 能 轻松 地 并 行 交 代 现 个 或 更 多 可 泛 代 对 萌 、 它 返 回 的 元 组 可 以 拆 包 
成 变量 分 别 对 应 各 个 并 行 输入 中 的 一 个 元 素 。 如 示例 10-15 所 示 。 


~I Zip 函数 的 名 字 取 目 拉链 系 结 物 (zipper fastener) ， 因 为 这 
个 物品 用 于 把 两 个 拉链 边 的 链 牙 咬合 在 一 起 ， 这 形象 地 说 明了 
zip(left, right) 的 作用 。zip 函数 与 文件 压缩 没有 关系 。 


示例 10-15 zip 内 置 函 数 的 使 用 示例 


>>> zip(range(3), 'ABC') #@ 

<zip object at 0x10063ae48> 

>>> list(zip(range(3), 'ABC')) #@0 

[(0, 'A'), (1, 'B'), (2, 'C')] 

>>> list(zip(range(3), 'ABC', [0.0, 1.1, 2.2, 3.3])) #0 
[(0, 'A', 0.0), (1, 'B', 1.1), (2, 'C', 2.2)] 

>>> from itertools import zip_longest # @ 

>>> list(zip_longest(range(3), 'ABC', [0.0, 1.1, 2.2, 3.3], 
fillvalue=-1) ) 

[(9, ‘A’, 0.0), (1, ‘BT, 1.1), (2, 'C', 2.2), (-1, -1, 3.3)] 


O zip 函数 返回 一 个 生成 器 ， 按 需 生 成 元 组 。 
@ 为 了 输出 ， 构 建 一 个 列表 ; a, BAAR as 


© zip 有 个 奇怪 的 特性 ， 当 一 个 可 迁 代 对 象 丰 尽 后 ， 它 不 发 出 警告 就 停 
止 。 


© itertools.zip_longest 函数 的 行为 有 所 不 同 : 使 用 可 选 的 
fillvalue (默认 值 为 None) 填充 缺失 的 值 ， 因 此 可 以 继续 产 出 ， 直 
到 最 长 的 可 迭代 对 象 耗 尽 。 


为 了 避免 在 for 循环 中 手动 处 理 索引 变量 ， 还 经 常 使 用 内 置 的 
enumerate 4 bias NAY ° URUK AZAR enumerate 函数 ， 一 定 要 阅 
读 “Build-in Functions” C#4 ° AA zip 和 enumerate WAX, UKER 
WEE FEL SAE as EE 14.9 节 讨 论 。 


“至 少 对 我 来 说 ， 这 是 奇怪 的 。 我 认为 ， 当 组 合 不 同 长 度 的 可 迭代 对 象 时 ，zip 应 该 抛 出 


ValueError ° 


10.7 Vector 类 第 5 版 : 格式 化 


Vector 类 的 ”format ”方法 与 Vector2d 类 的 相似 ， 但 是 不 使 用 极 坐 

标 ， 而 使 用 球面 坐标 〈 也 叫 超 球面 坐标 ) ， 因 为 Vector 类 支持 n 个 维度 ， 

m 球体 变 成 了 “ 超 球 体 ”。8 因 因此 ， 我 们 会 把 和 目 定义 的 格式 后 绥 
p 1 'h! e 


8wolfram Mathworld 网 站 中 有 一 篇 介绍 超 球 体 的 文章 ; 维基 百科 会 把 “ 超 球体 ” 词 条 重 定向 到 “mn 维 球 
体 ” 词 条 。 


~I 9.5 节 说 过 ， 扩 展 格 式 规范 微 语言 时 ， 最 好 避免 重用 内 置 类 型 支持 
的 格式 代码 。 这 里 对 微 语言 的 扩展 还 会 用 到 浮 点 数 的 格式 代码 
'eEfFgGn%'， 而 且 保 持原 意 ， 因 此 绝对 要 避免 重用 代码 。 整 数 使 用 的 
格式 代码 有 'bcdoxXxn' ， 字 符 串 使 用 的 是 's'。 在 Vector2d 类 中 ， 
我 选择 使 用 'p ' 表示 极 坐 标 。 使 用 'h ' 表示 超 球 面 坐标 


(hyperspherical coordinate) 是 个 不 错 的 选择 。 


例如 ， 对 四 维 空间 (len(v) == 4) 中 的 Vector 对 象 来 说 ，'h' 代码 得 
到 的 结果 是 这 样 : <r， 中 ， 中 ， 中 3>。 其 中 , 了 是 模 (abs(v)) ， 余 下 三 
个 数 是 角 坐 标 @, > D, 和 @3。 下 面 儿 个 示例 搞 目 vector_v5.py 的 doctest (& 
见 示例 10-16) ， 是 四 维 球面 坐标 格式 : 


format(Vector([-1, -1, -1, -1]), 'h') 
.0, 2.0943951023931957, 2.186276035465284, 3.9269908169872414>' 


format(Vector([2, 2, 2, 2]), '.3eh') 
.000e+00, 1.047e+00, 9.553e-01, 7.854e-01>' 
format(Vector([0, 1, ©, 0]), '0.5fh') 
.00000, 1.57080, 0.00000, 0.00000>' 


在 小 幅 改 动 _format_ ”方法 之 前 ， 我 们 要 定义 两 个 辅助 方法 : 一 个 是 
angle(n)， 用 于 计算 某 个 角 坐 标 (如 d) ; 另 一 个 是 angles()， 返回 由 
所 有 角 坐 标 构成 的 可 迭代 对 象 。 我 们 不 会 讲解 其 中 涉及 的 数学 原理 ， 如 果 你 
好 奇 的 话 ， 可 以 查看 维基 百科 中 的 “n 维 球体 ” 词 条 ， 那 里 有 几 个 公式 ， 我 就 

是 使 用 它们 把 Vector 实例 分 量 数组 内 的 笛 卡 儿 坐 标 转换 成 球面 坐标 的 。 


示例 10-16 是 vector_v5.py 脚本 的 完整 代码 ， 包 含 自 10.2 市 以 来 实现 的 所 有 
代码 和 本 节 实 现 的 自 定 义 格 式 。 


示例 10-16 vector_v5.py: Vector 类 最 终 版 的 doctest 和 全 部 代码 ， 带 
标号 的 那儿 行 是 为 了 支持 _ format 方法 而 添加 的 代码 


A multidimensional ”Vector class, take 5 


A ‘Vector is built from an iterable of numbers:: 


>>> Vector([3.1, 4.2]) 
Vector([3.1, 4.2]) 

>>> Vector((3, 4, 5)) 
Vector([3.0, 4.0, 5.0]) 


>>> Vector(range(10) ) 
Vector([0.0, 1.0, 2.0, 3.0, 4.0, ...]) 


Tests with two dimensions (same results as ``vector2d_v1.py``):: 
>>> v1 = Vector([3, 4]) 

>>> xX, y = v1 

>>> X, y 

(3.0, 4.0) 

>>> v1 

Vector ([3.0, 4.0]) 

>>> vi_clone = eval(repr(v1)) 
>>> vi == vi_clone 

True 

>>> print(v1) 

(3.0, 4.0) 

>>> octets = bytes(v1) 

>>> octets 


b'd\\xOO\\xOO\\XOO\\XOO\\XOO\\XOO\\XO8B@\\XOO\\KOO\\XOO\\XOO\\XOO\\XOO\\X 
10@' 

>>> abs(v1) 

5.0 

>>> bool(v1), bool(Vector([0, 0])) 

(True, False) 


Test of ``.frombytes()`` class method: 


>>> vi_clone = Vector.frombytes(bytes(v1) ) 
>>> vi_clone 

Vector([3.0, 4.0]) 

>>> vi == vi_clone 

True 


Tests with three dimensions:: 


>>> v1 = Vector([3, 4, 5]) 

>>> X, y, Z= v1 

>>> X, Y, Z 

(3.0, 4.0, 5.0) 

>>> v1 

Vector ([3.0, 4.0, 5.0]) 

>>> vi_clone = eval(repr(v1)) 
>>> vi == vi_clone 

True 

>>> print(v1) 

(3.0, 4.0, 5.0) 

>>> abs(v1) # doctest:+ELLIPSIS 
7.071067811... 

>>> bool(v1), bool(Vector([0, 0, 0])) 
(True, False) 


Tests with many dimensions : : 


>>> v7 = Vector(range(7)) 


>>> v7 
Vector([0.0, 1.0, 2.0, 3.0, 4.0, ...]) 
>>> abs(v7) # doctest:+ELLIPSIS 
9.53939201... 
Test of ~~. bytes ‘~ and ``.frombytes()`` methods:: 


>>> v1 = Vector([3, 4, 5]) 

>>> vi_clone = Vector.frombytes(bytes(v1) ) 
>>> vi_clone 

Vector([3.0, 4.0, 5.0]) 

>>> vi == vi_clone 

True 


Tests of sequence behavior:: 


>>> v1 = Vector([3, 4, 5]) 

>>> len(v1) 

3 

>>> vi[0], vi[len(v1)-1], vi[-1] 
(3.0, 5.0, 5.0) 


Test of slicing:: 


>>> v7 = Vector(range(7) ) 

>>> v7[-1] 

6.0 

>>> v7[1:4] 

Vector([1.0, 2.0, 3.0]) 

>>> v7[-1:] 

Vector([6.0]) 

>>> v7[1,2] 

Traceback (most recent call last): 


TypeError: Vector indices must be integers 


Tests of dynamic attribute access:: 


>>> v7 = Vector(range(10) ) 
>>> v7.X 

0.0 

>>> v7.y, V7.Z, V7.t 

(1.0, 2.0, 3.0) 


Dynamic attribute lookup failures:: 


>>> v7.k 
Traceback (most recent call last): 


AttributeError: 'Vector' object has no attribute 'k' 
>>> v3 = Vector(range(3)) 

>>> v3.t 

Traceback (most recent call last): 


AttributeError: 'Vector' object has no attribute 't' 
>>> v3.spam 
Traceback (most recent call last): 


AttributeError: 'Vector' object has no attribute 'spam' 


Tests of hashing:: 


>>> v1 = Vector([3, 4]) 

>>> v2 = Vector([3.1, 4.2]) 
>>> v3 = Vector([3, 4, 5]) 
>>> v6 = Vector(range(6) ) 


>>> hash(v1), hash(v3), hash(v6) 
(7, 2, 1) 


Most hash values of non-integers vary from a 32-bit to 64-bit CPython 
build:: 


>>> import sys 

>>> hash(v2) == (384307168202284039 if sys.maxsize > 2**32 else 
357915986) 

True 


Tests of ”format() with Cartesian coordinates in 2D:: 


>>> v1 = Vector([3, 4]) 
>>> format (v1) 

'(3.0, 4.0)' 

>>> format(vi, '.2f') 
'(3.00, 4.00)! 

>>> format(vi, '.3e') 
'(3.000e+00, 4.000e+00)' 


Tests of ”format() with Cartesian coordinates in 3D and 7D:: 


>>> v3 = Vector([3, 4, 5]) 

>>> format(v3) 

'(3.0, 4.0, 5.0)' 

>>> format(Vector(range(7))) 

'(0.0, 1.0, 2.0, 3.0, 4.0, 5.0, 6.0)! 


Tests of `` format()`` with spherical coordinates in 2D, 3D and 4D:: 


>>> format(Vector([1, 1]), 'h') # doctest:+ELLIPSIS 


‘<1. 


>>> 


‘<1. 


>>> 


"<1. 


>>> 


"<1. 


>>> 


'<3. 


>>> 


"<0 ， 


>>> 


"<2, 


>>> 


"<4, 


>>> 


‘<1. 


from ar 
import 
import 
import 
import 
import 
import 


class V 
typ 
def 


def 


def 


def 


def 


def 


def 


414213..., ©.785398...>' 

format(Vector([1, 1]), '.3eh') 

414e+00, 7.854e-01>' 

format(Vector([1, 1]), '0.5fh') 

41421, 0.78540>' 

format(Vector([1, 1, 1]), 'h') # doctest:+ELLIPSIS 
73205..., 0.95531..., 0.78539...>' 
format(Vector([2, 2, 2]), '.3eh') 

464e+00, 9.553e-01, 7.854e-01>' 

format(Vector([0, ©, 0]), 'O0.5fh') 

00000, 0.00000, 0.00000>' 

format(Vector([-1, -1, -1, -1]), 'h') # doctest:+ELLIPSIS 
0, 2.09439..., 2.18627..., 3.92699...>' 
format(Vector([2, 2, 2, 2]), '.3eh') 

000e+00, 1.047e+00, 9.553e-01, 7.854e-01>' 
format(Vector([0, 1, ©, 0]), '0.5fh') 

00000, 1.57080, 0.00000, 0.00000>' 


ray import array 
reprlib 

math 

numbers 
functools 
operator 
itertools @ 


ector: 
ecode = 'd' 


__init__(self, components): 
self._components = array(self.typecode, components) 


__iter__(self): 
return iter(self. components) 


__repr__(self): 

components = reprlib.repr(self._components) 
components = components[components.find('['):-1] 
return 'Vector({})'.format(components) 


—str_ (self): 
return str(tuple(self)) 


__bytes__ (self): 
return (bytes([ord(self.typecode)]) + 
bytes(self._components)) 


_eq (self, other): 
return (len(self) == len(other) and 
all(a == b for a, b in zip(self, other))) 


__hash__(self): 
hashes = (hash(x) for x in self) 


return functools.reduce(operator.xor, hashes, 0) 


def _abs_ (self): 
return math.sqrt(sum(x * x for x in self)) 


def _ bool (self): 
return bool(abs(self)) 


def _len_ (self): 
return len(self._components) 


def _ getitem_ (self, index): 

cls = type(self) 

if isinstance(index, slice): 
return cls(self._components[index]) 

elif isinstance(index, numbers.Integral): 
return self. _components[index] 

else: 
msg = '{.__name__} indices must be integers' 
raise TypeError(msg.format(cls) ) 


shortcut_names = 'xyzt' 


def _ getattr_ (self, name): 

cls = type(self) 
if len(name) == 1: 

pos = cls.shortcut_names.find(name) 

if © <= pos < len(self._components): 

return self._components[pos] 

msg = '{.__name__!r} object has no attribute {!r}' 
raise AttributeError(msg.format(cls, name) ) 


def angle(self, n): @ 
r = math.sqrt(sum(x * x for x in self[n:])) 
a = math.atan2(r, self[n-1]) 
if (n == len(self) - 1) and (self[-1] < 0): 
return math.pi * 2-a 
else: 
return a 


def angles(self): © 
return (self.angle(n) for n in range(1, len(self))) 


def _ format_ (self, fmt_spec=''): 
if fmt_spec.endswith('h'): # 超 球面 
fmt_spec = fmt_spec[:-1] 
coords = itertools.chain([abs(self)], 
self.angles()) ©@ 


坐标 


outer_fmt = '<{}>' © 
else: 

coords = self 

outer_fmt = '({})' © 
components = (format(c, fmt_spec) for c in coords) 
return outer_fmt.format(', '.join(components)) © 


@classmethod 

def frombytes(cls, octets): 
typecode = chr(octets[0]) 
memv = memoryview(octets[1:]).cast(typecode) 
return cls(memv) 


四 为 了 在 _ format ”方法 中 使 用 chain KX, FA itertools 模块 。 
@ 使 用 “n 维 球体 ” 词 条 中 的 公式 计算 某 个 角 坐 标 。 
© 创建 生成 器 表达 式 ， 按 需 计算 所 有 和 角 坐 标 。 


O 使 用 itertools.chain 函数 生成 生成 器 表达 式 ， 无 颖 过 代 癌 量 的 模 和 
各 个 角 坐 标 。 


O 配置 使 用 尖 括 号 显示 球面 坐标 。 

O MEHA S iat -B LAGER ° 

@ 创建 生成 器 表达 式 ， 按 需 格 式 化 各 个 坐标 元 素 。 
O 把 以 逗号 分 隔 的 格式 化 分 量 插入 尖 括 号 或 圆 括 号 。 


` 我 们 在 _ format_ ` angle #il angles 中 大 量 使 用 了 生成 器 表 
达 式 ， 不 过 我 们 的 目的 是 让 Vector AY format__ 方法 与 
Vector2d 类 处 在 同一 水 平 上 。 第 14 章 讨 论 生成 器 时 会 使 用 Vector 
类 中 的 部 分 代码 举例 ， 然 后 详细 说 明生 成 器 的 技巧 。 


本 章 的 任务 到 此 结束 。 第 13 章 会 改进 Vector 类 ， 让 它 文 持 中 级 运算 符 。 
本 章 的 目的 是 探讨 如 何 编写 集合 类 广泛 使 用 的 儿 个 特殊 方法 。 


10.8 ”本 章 小 结 


本 章 所 举 的 Vector 示例 故意 与 Vector2d 兼容 ， 不 过 二 者 的 构造 方法 签 
名 不 同 ，Vector 类 的 构造 方法 接受 一 个 可 迭代 的 对 象 ， 这 与 内 置 的 序列 类 
型 一 样 。Vector 的 行为 之 所 以 像 上 序列， 是 因为 它 实 现 了 __getitem 和 
rie 方法 ; 借 此 ， 我 们 讨论 了 协议 ， 这 是 鸭子 类 型 语言 使 用 的 非 正 式 
ŽO e 


$ 


re 


然后 ， 我 们 说 明了 my_ Sde b:c] 句法 背后 的 工作 原理 : 创建 
slice(a, b, c) 对 象 ， 交 给 ”getitem _ 方法 处 理 。 了 解 这 一 

后 ， 我 们 让 Vector 正确 处 理 切 片 ， 像 符合 Python X ee ee 
的 Vector 实例 。 


接 下 来 ， 我 们 为 Vector 实例 的 头 几 个 分 量 提 供 了 只 读 访问 功能 ， 使 用 
my_vec. x 这 样 的 表示 法 。 这 所 通过 __getattr__ 方法 实现 。 实 现 这 一 
功能 之 后 ， 用 户 会 想 通 过 my_vec.x = 7 这样 的 写法 为 头 几 个 分 量 赋值 
ER 为 了 解决 这 个 问题 ， 我 们 又 实现 了 
setattr_ 方法， 通过 它 禁 止 为 单字 母 属性 赋值 。 大 多 数 时 候 ， 如 果 定 
MJ _getattr_ 方法， 那么 也 要 定义 setattr_ 方法， 这 样 才能 避 
免 行 为 不 一 致 。 


实现 hash ”方法 特别 适合 使 用 functools .reduce 函数 ， 因 为 我 们 
要 把 异 或 运算 符 A 依次 应 用 到 各 个 分 量 的 散 列 值 上 ， 生 成 整个 向 量 的 聚合 散 
FHE ° Æ _hash_ 方法 中 使 用 reduce 函数 之 后 ， 我 们 又 使 用 内 置 的 归 
AERA all 实现 了 效率 更 高 的 __eq__ 方法 。 


Vector 类 的 最 后 一 项 改进 是 在 Vector2d 的 基础 上 重新 实现 

_ format 方法， 这 一 次 ， 除 了 文 持 笛 卡 儿 坐 标 ， 我 们 还 支持 了 球面 坐 
标 。 为 了 定义 format ”方法 及 其 辅助 方法 ， 我 们 用 到 了 很 多 数学 知识 
和 几 个 生成 器 ， 但 这 些 是 实现 细节 。 第 14 章 会 再 次 讨论 生成 器 。 最 后 一 节 
的 目的 是 支持 自 定义 格式 ， 从 而 兑现 承诺 ， 让 Vector 与 Vector2d 兼 
容 ， 此 外 还 能 做 更 多 的 事情 。 


与 第 9 章 一 样 ， 我 们 经 常 分 析 Python 标准 对 象 的 行为 ， 然 后 进行 模仿 ， 让 
Vector 的 行为 符合 Python 风格 。 


第 13 章 将 为 Vector 实现 几 个 中 绥 运 算 符 。 第 13 章 使 用 的 数学 知识 比 
angle() 方法 用 到 的 简单 多 了 ， 但 是 通过 Python 中 级 运算 符 的 工作 方 
式 ， 我 们 对 面向 对 象 设计 的 认识 将 更 进一步 。 讨 论 运算 符 重 载 之 前 ， 我 们 将 
先 定义 一 个 类 ， 说 明 如 何 使 用 接口 和 继承 组 织 多 个 类 -这 是 第 11 章 和 第 
12 章 的 话题 。 


10.9 ”延伸 阅读 


Vector 类 中 的 大 多 数 特殊 方法 在 第 9 章 定 义 的 Vector2d 类 中 也 有 ， 因 此 
前 一 章 给 出 的 延伸 阅读 材料 同样 适合 本 章 。 


强大 的 高 阶 函 数 reduce EHEH ` R RA ` EMEA o ELE aA 
见 维基 百科 中 的 “Fold (higher-order function)” 词 条 。 这 篇 文章 展示 了 高 阶 函 数 
的 用 途 ， 着 重 说 明了 具有 递归 数据 结构 的 函数 式 语 言 。 这 篇 文章 中 还 有 一 个 
表格 ， 列 出 了 很 多 编程 语言 中 起 合拢 作用 的 函数 。 


杂谈 


把 协议 当 作 非 正式 的 接口 


协议 不 是 Python 发 明 的 。Smalltalk 团队 ， 也 就 是 “面向 对 象 ” 的 发 明 者 ， 
使 用 “协议 ”这 个 词 表示 现在 我 们 称 之 为 接口 的 特性 。 某 些 Smalltalk 编程 
环境 允许 程序 员 把 一 组 方法 标记 为 协议 ， 但 这 只 不 过 是 一 种 文档 ， 用 于 
辅助 导航 ， 语 言 不 对 其 施加 特定 措施 。 因 此 ， 向 熟悉 正式 (而 且 编 译 器 
会 施加 措施 ) 接口 的 人 解释 “协议 时， 我 会 简单 地 说 它 是 “ 非 正式 的 接 
O” o 


动态 类 型 语言 中 的 既定 协议 会 目 然 进化 。 所 谓 动态 类 型 是 指 在 运行 时 检 
得 类 型 ， 因 为 方法 签名 和 变量 没有 静态 类 型 信息 。Ruby 是 一 | 重要 的 
面向 对 象 动 态 类 型 语言 ， 它 也 使 用 协议 。 


在 Python 文档 中 ， 如 果 看 到 “文件 类 对 象 " 这 样 的 表述 ， 通 常 说 的 就 是 协 
议 。 这 是 一 种 简短 的 说 法 ， 意 思 是 : “行为 基本 与 文件 一 致 ， 实 现 了 部 
分 文件 接口 ， 满 足 上 下 文 相 关 需 求 的 东西 。” 


你 可 能 觉得 只 实现 协议 的 一 部 分 不 够 严谨 ， 但 是 这 样 做 的 优点 是 简 
单 。“Data Model” 一 章 的 3.3 TÆN: 


模仿 内 置 类 型 实现 类 时 ， 记 住 一 点 : 模仿 的 程度 对 建 模 的 对 象 来 说 
a 。 例如， 有 些 序 列 可 能 只 需要 获取 单个 元 素 ， 而 不 必 提 取 
Jj o 


一 一 Python 语言 参考 手册 中 “Data Model” 一 章 


不 要 为 了 满足 过 度 设计 的 接口 契约 和 让 编译 器 开心 ， 而 去 实现 不 需要 的 
方法 ， 我 们 要 遵守 KISS 原则 。 


第 11 章 还 会 讨论 协议 和 接口 ， 这 正 是 那 一 章 的 主要 话题 。 
鸭子 类 型 的 起 源 


我 相信 Ruby 社区 在 “鸭子 类 型 "这 个 术语 的 推广 过 程 中 起 了 主要 作用 ， 
因为 他 们 疝 大 量 Java 使 用 者 宣扬 了 这 个 说 法 。 但 是 ， 在 Ruby 或 Python 


流行 起 来 之 前 ，Python 束 使 用 这 个 术语 了 “。 根 据 维基 百科 ， 在 面向 对 象 
编程 中 较 早 使 用 鸭子 作 比喻 的 人 是 Alex Martelli， 在 他 于 2000 年 7 月 
26 日 发 到 Python-list 中 的 一 篇 文章 里 : “polymorphism (was Re: Type 
checking in python?)”。 本草 开 头 引 用 的 那 句 话 就 出 自 那 篇 文章 。 如 果 你 
想 知道 “鸭子 类 型 "这 个 术语 的 真正 起 源 ， 以 及 很 多 编程 语言 对 这 个 面向 
对 象 概念 的 运用 ， 请 阅读 维基 百科 中 的 “Duck typing” 词 条 。 


安全 的 ”format 方法， 增强 可 用 性 


实现 format ”方法 时 ， 我 们 没有 采取 措施 防范 Vector 实例 拥有 
大 量 分 量 ， 不 过 在 __repr_ ”方法 中 我 们 使 用 repr1Lib 做 了 预防 。 这 
是 因为 repr( ) 函数 用 于 调试 和 记录 日 志 ， 所 以 必须 生成 可 用 的 输出 ; 
而 format_ ”方法 用 于 向 最 终 用 户 显示 输出 ， 他 们 大 概 想 看 到 整个 
。 如果 你 觉得 这 样 做 危险 ， 可 以 再 为 格式 规范 微 语言 实现 一 个 


如 果 是 我 ， 我 会 这 么 做 : 默认 情况 下 ， 格 式 化 的 Vector 实例 显示 有 限 
个 分 量 ， 比 如 说 30 个 。 如 果 元 素数 量 超过 上 限 ， 默 认 的 行为 是 像 
reprlib 那样 ， 截 断 超出 的 部 分 ， 使 用 , , , 表示 。 然 而 ， 如 果 格 式 说 
明 符 后 面 有 特殊 的 * 代码 (意思 是 “全 部 ”) ， 那 么 就 不 限制 显示 的 元 素 
数量 。 因 此 ， 用 户 在 不 知情 的 情况 下 不 会 被 特别 长 的 输出 吓 到 。 如 果 默 
认 的 上 限 碍 事 ， 那 么 . ., 的 存在 对 用 户 是 个 提醒 ， 用 户 研究 文档 后 会 发 
现 * 格式 代码 。 

如 果 你 实现 了 ， 请 向 本 书 的 GitHub 仓库 发 一 个 拉 取 请 求 。 

寻找 符合 Python 风格 的 求 和 方式 

就 像 * 什 么 是 美 ? 没 有 确切 的 答案 一 样 , “什么 是 Python 风格 ”也 没有 标准 
答案 。 如 果 回 答 “ 地 道 的 Python”( 我 通常 会 这 样 说 ) ， 不 能 让 人 100% 
满意 ， 因 为 对 你 来 说 是 “地 道 的 "， 在 我 看 来 却 可 能 不 是 。 但 我 可 以 肯定 
的 是 ,，“ 地 道 ” 并 不 是 指使 用 最 鲜 为 人 知 的 语言 特性 。 


Python-list 中 有 一 篇 发 表 于 2003 年 4 月 的 话题 ， 题 为 “Pythonic Way to 
Sum n-th List Element?” ° 这 个 话题 与 本 章 讨论 的 reduce 函数 有 关 。 


该 话题 的 发 起 人 Guy Middleton 说 他 不 喜欢 使 用 lambda 表达 式 ， 问 下 
面 这 个 方案 有 没有 办 法 改进 : 9 


>>> my_list = [[1, 2, 3], [40, 50, 60], [9, 8, 7]] 
>>> import functools 
>>> functools.reduce(lambda a, b: a+b, [sub[1] for sub in my_list]) 


Me 
这 段 代 码 有 很 多 习惯 用 法 : lambda ` reduce 和 列表 推导 。 最 终 ， 这 

可 能 会 变 成 人 气 竞赛 ， 因 为 它 崩 犯 了 讨厌 lambda 的 人 和 看 不 上 列表 推 
导 的 人 一 一 这 两 种 人 都 很 多 。 


如 采 使 用 lambda， 或 许 就 不 应 该 使 用 列表 推导 一 一 过 滤 除 外 ， 但 这 不 


下 面 是 我 给 出 的 方案 ， 这 能 讨 得 lambda 拥护 者 的 欢心 : 


>>> functools.reduce(lambda a, b: a + b[1], my_list, 0) 
60 


我 没有 参与 那个 话题 ， 而 且 我 不 会 在 真实 的 代码 中 使 用 上 壕 方案 ， 因 为 
我 非常 不 喜欢 Lambda IAR + 这 里 只 是 为 了 举例 说 明 不 使 用 列表 的 
TA 


第 一 个 答案 是 Fernando Perez 给 出 的 ， 他 是 IPython 的 创建 者 ， 他 的 答 
案 强 调 了 Numpy 支持 n 维 数组 和 n 维 切片 : 


>>> import numpy as np 
>>> my_array = np.array(my_list) 
>>> np.sum(my_array[:, 1]) 


60 


我 觉得 Perez WARRE, Mit Guy Middleton #252 Paul Rubin 和 Skip 
Montanaro 给 出 的 下 述 方案 : 


>>> import operator 


>>> functools.reduce(operator.add, [sub[1] for sub in my_list], 0) 
60 


随后 ，Evan Simpson 问 道 : “这 样 做 有 什么 错 ? ” 


>>> total = 0 
>>> for sub in my_list: 
total += sub[1] 


>>> total 
60 


许多 人 都 觉得 这 也 很 符合 Python 风格 。Alex Martelli 甚至 说 ，Guido 或 
许 束 会 这 么 做 。 


我 喜欢 Evan Simpson 的 代码 ， 不 过 也 喜欢 David Eppstein 对 此 给 出 的 评 
论 : 


如 有 果 你 想 计算 列表 中 各 个 元 素 的 和 ， 写 出 的 代码 应 该 看 起 来 像 是 
在 “计算 元 素 之 和 ”， 而 不 是 “迭代 元 素 ， 维 护 一 个 变量 tf， 再 执行 一 
系列 求 和 操作 ”。 如果 不 能 站 在 一 定 高 度 上 表明 意图 ， 让 语言 去 关 
注 低层 操作 ， 那 么 要 高 级 语言 干 嘛 ? 


之 后 Alex Martelli X ÆW: 


求 和 操作 经 常 需要 ， 我 不 介意 Python 提供 一 个 这 样 的 内 置 画 数 。 但 
是 ， 在 我 看 来 ，“reduce(operator.add, ...” 不 是 好 方法 (作为 一 名 APL 
老 程序 员 和 FP 语言 的 爱好 者 ， 我 应 该 喜欢 ， 但 是 我 并 不 喜欢 ) 


随后 ，Alex 建议 提供 并 实现 了 sum( ) 画 数 。 这 次 讨论 之 后 三 个 月 ， 
Python 2.3 WAE TASK o KE, Alex 喜欢 的 句法 变 成 了 标准 : 


>>> sum([sub[1] for sub in my_list]) 
60 


下 一 年 年 末 (2004 £11 H) , Python 2.4 发 布 了 ， 这 一 版 引入 了 生成 器 
表达 式 。 因 此 ， 在 我 看 来 ，Guy Middleton 那个 问题 目前 最 符合 Python 
风格 的 答案 是 : 


>>> sum(sub[1] for sub in my_list) 
60 


这 样 写 不 仅 比 使 用 reduce 函数 更 易 阅 读 ， 而 且 还 能 避免 空 序列 导致 的 
陷阱 : sum( [] ) 的 结果 是 0， 就 这 么 简单 。 


在 这 次 讨论 中 ，Alex Martelli 指出 ，Python 2 内 置 的 reduce 函数 成 事 
不 足 败 事 有 余 ， 因 为 它 推 荐 的 地 道 编 程 方式 难以 理解 。 他 的 观点 最 有 说 
IRJ: Python 3 把 reduce 函数 移 到 functools 模块 中 了 。 


当然 ，functools .reduce 函数 仍 有 它 的 作用 。 实 现 
Vector. hash__ 方法 时 我 就 用 了 它 ， 我 觉得 我 的 实现 方式 算得 上 符 
合 Python 风格 。 


?为 了 在 此 展示 ， 我 稍微 修改 了 这 段 代码 ， 因 为 在 2003 年 ，reduce 是 内 置 


导入 。 此 外 ,我 把 x 和 yy 换 成 了 my_list 和 sub (表示 子 串 ) 。 


函数 ， 而 在 Python 3 


Ble 接口 : 从 协议 到 抽象 基 类 


抽象 类 表示 接口 。? 


Bjarne Stroustrup 
AN 


C++ LX 
Bjarne Stroustrup, The Design and Evolution of C++ (Addison-Wesley, 1994), p. 278. 


本 章 讨论 的 话题 是 接口 : 从 鸭子 类 型 的 代表 特征 动态 协议 ， 到 使 接口 更 明 
确 、 能 验证 实现 是 否 符合 规定 的 抽象 基 类 (Abstract Base Class, ABC) ° 


如 果 用 过 Java、C# 或 类 似 的 语言 ， 你 会 觉得 鸭子 类 型 的 非 正式 协议 很 新 奇 。 
但 是 对 长 时 间 使 用 Python 或 Ruby 的 程序 员 来 说 ， 这 是 接口 的 “常规 ”方式 ， 
新 知识 是 抽象 基 类 的 严格 规定 和 类 型 检查 。Python 语言 诞生 15 年 后 ， 
Python 2.6 才 引 入 抽象 基 类 。 


AS FETC ULAR Python 社区 以 往 对 接口 的 不 严 遮 理解， 部 分 实现 接口 通常 被 认为 
ENHI 。 我 们 将 通过 几 个 示例 强调 鸭子 类 型 的 动态 本 性 ， 从 而 澄清 这 一 


m 


接着 ， 我 邀请 Alex Martelli 写 了 一 篇 短文 ， 对 抽象 基 类 做 了 介绍 ， 还 为 
Python 编程 的 一 个 新 趋势 下 了 定义 。 本 章 余 下 的 内 容 专门 讲解 抽象 基 类 。 首 
先 ， 本 章 说 明 抽象 基 类 的 常见 用 途 ， 实 现 接口 时 作为 超 类 使 用 。 然 后 ， 说 明 
抽象 基 类 如 何 检查 具体 子 类 是 否 符合 接口 定义 ， 以 及 如 何 使 用 注册 机 制 声明 
一 个 类 实现 了 某 个 接口 ， 而 不 进行 子 类 化 操作 。 最 后 ， 说 明 如 何 让 抽象 基 类 
自动 “识别 "任何 符合 接口 的 类 一 不 进行 子 类 化 或 注册 。 


我 们 将 实现 一 个 新 抽象 基 类 ， 看 看 它 的 运作 方式 。 但 是 ， 我 和 Alex Martelli 
都 不 建议 你 自己 编写 抽象 基 类 ， 因 为 很 容易 过 度 设 计 。 


你 抽象 基 类 与 描述 符 和 元 类 一 样 ， 是 用 于 构建 框架 的 工具 。 因 此 ， 
只 有 少数 Python 开发 者 编写 的 抽象 基 类 不 会 对 用 户 施加 不 必要 的 限制 ， 
让 他 们 做 无 用 功 。 


下 面 我 们 从 Python 风格 的 角度 探讨 接口 。 


11.1 Python 文化 中 的 接口 和 协议 


引入 抽象 基 类 之 前 ，Python 就 已 经 非常 成 功 了 ， 即 便 现 在 也 很 少 有 代码 使 用 
抽象 基 类 。 第 1 章 就 已 经 讨论 了 鸭子 类 型 和 协议 。 在 10.3 节 ， 我 们 把 协议 定 
义 为 非 正式 的 接口 ， 是 让 Python 这 种 动态 类 型 语言 实现 多 态 的 方式 。 


接口 在 动态 类 型 语言 中 是 怎么 运作 的 呢 ? 首先， 基本 的 事实 是 ，Python 语言 
没有 interface 关键 字 ， 而 且 除 了 抽象 基 类 ， 每 个 类 都 有 接口 :类 实现 或 
继承 的 公开 属性 (方法 或 数据 属性 ) ， 包 括 特殊 方法 ， 如 __getitem 或 
add e° 


按照 定义 ， 受 保护 的 属性 和 私有 属性 不 在 接口 中 ， 即 便 “ 受 保护 的 ”属性 也 只 
是 采用 命名 约定 实现 的 (单个 前 导 下 划 线 ) ; 私有 属性 可 以 轻松 地 访问 ( 参 
见 9.7 节 ) ,原因 也 是 如 此 。 不 要 违背 这 些 约定 。 


另 一 方面 ， 不 要 觉得 把 公开 数据 属性 放 入 对 象 的 接口 中 不 受 ， 因 为 如 果 需 
要 ， 总 能 实现 读 值 方法 和 设 值 方法 ， 把 数据 属性 变 成 特性 ， 使 用 obj .attr 
句法 的 客户 代码 不 会 受到 影响 。 Vector2d 类 就 是 这 么 做 的 ， 示 例 11-1 是 
Vector2d 类 的 第 一 版 ，x My 是 公开 属性 。 


ae 11-1 vector2d_v0.py: x Fly 是 公开 数据 属性 (代码 与 示例 9-2 相 
同 


class Vector2d : 
typecode = 'd' 


def _ init (self, x, y): 
self.x = float(x) 
self.y = float(y) 


def _iter_ (self): 
return (i for i in (self.x, self.y)) 


# 下 面 是 其 他 方法 〈 这 个 代码 清单 将 其 省 略 了 ) 


在 示例 9-7 中 ， 我 们 把 x 和 y 变 成 了 只 读 特 性 〈《 见 示例 11-2) 。 这 是 一 项 重 
大 重 构 ， 但 是 Vector2d 的 接口 基本 没 变 : 用 户 仍 能 读 取 my_vector.x 
和 my_vector.y。 


示例 11-2 vector2d_v3.py: 使 用 特性 实现 x 和 y (完整 的 代码 清单 参见 
示例 9-9) 


class Vector2d : 
typecode = 'd' 


def _ init__(self, x, y): 
self. x = float(x) 
self.__y = float(y) 


@property 
def x(self): 
return self. x 


@property 
def y(self): 
return self._ y 


def _iter_ (self): 
return (i for i in (self.x, self.y)) 


# 下 面 是 其 他 方法 〈 这 个 代码 清单 将 其 省 略 了 ) 


关于 接口 ， 这 里 有 个 实用 的 补充 定义 ， 对 象 公开 方法 的 子 集 ， 让 对 象 在 系统 
中 扮演 特定 的 角色 。Python 文档 中 的 "文件 类 对 象 ” 或 “可 迭代 对 象 " 束 是 这 个 
意思 ， 这 种 说 法 指 的 不 是 特定 的 类 。 接 口 是 实现 特定 角色 的 方法 集合 ， 这 样 
理解 正 是 Smalltalk 程序 员 所 说 的 协议 ， 其 他 动态 语言 社区 都 借鉴 了 这 个 术 
eae 。 一 个 类 可 能 会 实现 多 个 接口 ， 从 而 让 实例 扮演 多 
| o 


协议 是 接口 ， 但 不 是 正式 的 〈 只 由 文档 和 约定 定义 ) ， 因 此 协议 不 能 像 正式 
接口 那样 施加 限制 《本 章 后 面 会 说 明 抽象 基 类 对 接口 一 致 性 的 强制 ) 。 一 人 
类 可 能 只 实现 部 分 接口 ， 这 是 允许 的 。 有 时 ， 某 些 API 只 要 求 " 文 件 类 对 
象 ”返回 字 市 序列 的 .read( ) 方法 。 在 特定 的 上 下 文中 可 能 需要 其 他 文件 操 
作 方 法 ， 也 可 能 不 需要 。 


写作 本 书 时 ，Python 3 中 memoryview 的 文档 说 ， 它 能 处 理 “ 文 持 缓冲 协议 

的 对 象 ”， 不 过 缓冲 协议 的 文档 是 针对 C API 的 。bytearray 
(https://docs.python.org/3/library/functions.html#bytearray) 的 构造 方法 接 

受 “ 一 个 符合 缓冲 接口 的 对 象 *。 如今 ， 文 档 正在 改变 用 词 ， 使 用 “ 字 节 序列 类 

对 象 "这 样 更 加 友好 的 表述 。“ 我 指出 这 一 点 是 为 了 强调 ， 对 Python 程序 员 

来 说 ，“X RHR” K 协议 "和 “X 接口 ?都 是 一 个 意思 。 


?其 实 ，Issue 16518:“add buffer protocol to glossary” 做 的 就 是 这 种 修改 ， 把 很 多 “支持 缓冲 协议 / 接口 
/API 的 对 象 ” 改 成 了 “ 字 节 序列 类 对 象 ?»， “Other mentions of the buffer protocol” 也 是 如 此 。 


序列 协议 是 Python 最 基础 的 协议 之 一 。 即 便 对 象 只 实现 了 那个 协议 最 基本 的 
一 部 分 ， 解 释 器 也 会 负责 任 地 处 理 ， 如 下 一 节 所 示 。 


11.2 Python 喜欢 序列 


Python 数据 模型 的 哲学 是 尽量 支持 基本 协议 。 对 序列 来 说 ， 即 便 是 最 简单 的 
实现 ，Python 也 会 力求 做 到 最 好 。 


11-1 展示 了 定义 为 抽象 基 类 的 Sequence 正式 接口 。 


Container 
__ contains __ 


__getitem__ 


lterable __contains__ 


iter 
__reversed__ 
index 

count 


Æ 11-1: Sequence 抽象 基 类 和 collections.abc 中 相关 抽象 类 的 UML 
类 图 ， 箭 头 由 子 类 指向 超 类 ， 以 斜体 显示 的 是 抽象 方法 


现在 ， 看 看 示例 11-3 中 的 Foo 类 。 它 没有 继承 abc.Sequence， 而 且 只 实 
现 了 序列 协议 的 一 个 方法 : __getitem (没有 实现 __len_ 方法 ) 


示例 11-3 定义 _getitem 方法， 只 实现 序列 协议 的 一 部 分 ， 这 样 
足够 访问 元 素 、 迭 代 和 使 用 in 运算 符 了 


>>> class Foo: 
: def _ getitem (self, pos): 
return range(0, 30, 10)[pos] 


>>> f = Foo() 


RARA iter 方法 ,但 是 Foo 实例 是 可 迭代 的 对 象 ， 因 为 发 现 有 
getitem_ _ 方法 时 ，Python 会 调用 它 ， 传 入 从 9 开始 的 整数 索引 ， 沦 试 
OTR 《这 是 一 种 后 备 机 制 ) 。 尽 管 没 有 实现 __contains_ 方法 , 但 
ve Python TWR RE, REEN Foo 实例 ， 因 此 也 能 使 用 in 运算 符 : Python 
会 做 全 面 检 查 ， 看 看 有 没有 指定 的 元 素 。 


综 上 ， 鉴 于 序列 协议 的 重要 性 ， 如 果 没 有 __iter 和 contains _ 方 
法 ，Python 会 调用 getitem _ 方法， 设法 让 和 欠 代 和 in 运算 符 可 用 。 


第 1 章 定义 的 FrenchDeck 类 也 没有 继承 abc.Sequence, 但 是 实现 了 序 
列 协议 的 两 个 方法 : getitem 和 ”len 。 如 示例 11-4 所 示 。 


示例 11-4 ”实现 序列 协议 的 FrenchDeck 类 (代码 与 示例 1-1 相同 ) 


import collections 
Card = collections.namedtuple('Card', ['rank', 'suit']) 
class FrenchDeck: 

ranks = [str(n) for n in range(2, 11)] + list('JQKA' ) 


suits = 'spades diamonds clubs hearts'.split() 


def _init_ (self): 


self._cards = [Card(rank, suit) for suit in self.suits 
for rank in self.ranks] 


def _len__(self): 
return len(self._cards) 


def _ getitem_ (self, position): 
return self._cards[position] 


第 工 章 那些 示例 之 所 以 能 用 ， 大 部 分 是 由 于 Python 会 特殊 对 待 看 起 来 像 是 序 
列 的 对 象 。Python 中 的 迭代 是 鸭子 类 型 的 一 种 极端 形式 : 为 了 迭代 对 象 ， 解 
释 万 会 莹 试 调用 两 个 不 同 的 方法 。 


下 面 再 分 析 一 个 示例 ， 着 重 强调 协议 的 动态 本 性 。 
11.3 ”使 用 猴子 补丁 在 运行 时 实现 协议 
示例 11-4 中 的 FrenchDeck 类 有 个 重大 缺陷 : 无 法 洗 牌 。 几 年 前 ， 第 一 次 


编写 FrenchDeck 示例 时 ， 我 实现 了 shuffle 方法 。 后 来 ， 我 对 Python 
风格 有 了 深刻 理解 ， 我 发 现 如 果 FrenchDeck 实例 的 行为 像 序列 ， 那 么 它 


就 不 需要 shuffle 方法 ， 因 为 已 经 有 random. shuffle 画 数 可 用 ， 文 档 
中 说 它 的 作用 是 “就 地 打 乱 序列 x*。 


% 如 果 遵守 既定 协议 ， 很 有 可 能 增加 利用 现 有 的 标准 库 和 第 三 方 代 
码 的 可 能 性 ， 这 得 益 于 鸭子 类 型 。 


标准 库 中 的 random. shuffle KA AEU F: 


>>> from random import shuffle 
>>> 1 = list(range(10) ) 
>>> shuffle(1) 


>>> 1 
[5, 2, 9, T, 8, 3, 1, 4, O, 6] 


Rm, WRAY EL FrenchDeck 实例 ， 会 出 现 异常 ， 如 示例 11-5 所 示 。 
示例 11-5 random.shuffle 函数 不 能 打 乱 FrenchDeck 实例 


>>> from random import shuffle 
>>> from frenchdeck import FrenchDeck 
>>> deck = FrenchDeck() 
>>> shuffle(deck) 
Traceback (most recent call last): 

File "<stdin>", line 1, in <module> 

File ".../python3.3/random.py", line 265, in shuffle 

x[i], x[j] = x[j], x[i] 

TypeError: 'FrenchDeck' object does not support item assignment 


错误 消息 相当 明确 ,“'FrenchDeck ' object does not support item 
assignment” ('FrenchDeck! 对 象 不 支持 为 元 素 赋 值 ) 。 这 个 问题 的 原因 
Æ, Shuffle 函数 要 调换 集合 中 元 素 的 位 置 ， 而 FrenchDeck 只 实现 了 不 
可 变 的 序列 协议 。 可 变 的 序列 还 必须 提供 setitem_ ”方法 。 


Python 是 动态 语言 ， 因 此 我 们 可 以 在 运行 时 修正 这 个 问题 ， 甚 至 还 可 以 在 交 
互 式 控制 台中 ， 修 正方 法 如 示例 11-6 所 示 。 


示例 11-6 为 FrenchDeck 打 猴 子 补丁 ， 把 它 变 成 可 变 的 ， 计 
random. shuffle 函数 能 处 理 (接续 示例 11-5) 


>>> def set_card(deck, position, card): @ 
. deck._cards[position] = card 


>>> FrenchDeck.__setitem__ = set_card @ 
>>> shuffle(deck) ® 


>>> deck[:5] 

[Card(rank='3', suit='hearts'), Card(rank='4', suit='diamonds'), 
Card(rank='4', 

suit='clubs'), Card(rank='7', suit='hearts'), Card(rank='9', 
suit='spades')] 


@ 定义 一 个 函数 ， 它 的 参数 为 deck、position card ° 
© 把 那个 函数 赋值 给 FrenchDeck 类 的 __setitem _ 属性 。 


© 现在 可 以 打 乱 deck 了 ， 因 为 FrenchDeck 实现 了 可 变 序 列 协议 所 需 的 
方法 。 


特殊 方法 setitem_ _ 的 签名 在 Python 语言 参考 手册 的 “3.3.6. Emulating 
container types” 中 定义 。 语 言 参考 中 使 用 的 参数 是 self、key 和 value, 

而 这 里 使 用 的 是 deck、position 和 card。 这 么 做 是 为 了 告诉 你 ， 每 个 
Python 方法 说 到 底 都 是 普通 函数 ， 把 第 一 个 参数 命名 为 self 只 是 一 种 约 

定 。 在 控制 台 会 话 中 使 用 那儿 个 参数 没 问 题 ， 不 过 在 Python 源码 文件 中 最 好 
按照 文档 那样 使 用 self、key 和 value。 


这 里 的 关键 是 ，set_card 函数 要 知道 deck 对 象 有 一 个 名 为 cards 的 属 
性 ， 而 且 _cards 的 值 必须 是 可 变 序列 。 然 后 ， 我 们 把 set_card 函数 赋 
值 给 特殊 方法 __setitem ， 从 而 把 它 依 附 到 FrenchDeck 类 上 。 这 种 
技术 叫 猴子 补丁 ， 在 运行 时 修改 类 或 模块 ， 而 不 改动 源码 。 猴 子 补丁 很 强 
大 ， 但 是 打 补 丁 的 代码 与 要 打 补 丁 的 程序 耦合 十 分 紧密 ， 而 且 往往 要 处 理 隐 
沽 和 没有 文档 的 部 分 。 


除了 举例 说 明 猴子 补丁 之 外 ， 示 例 11-6 还 强调 了 协议 是 动态 的 : 
random. shuffle 画 数 不 关 心 参 数 的 类 型 ， 只 要 那个 对 象 实现 了 部 分 可 变 
序列 协议 即 可 。 即 便 对 象 一 开始 没有 所 需 的 方法 也 没关系 ， 后 来 再 提供 也 
行 。 


m 


目前 ， 本 章 讨论 的 主题 是 “鸭子 类 型 >; 对 象 的 类 型 无 关 紧 要 ， 只 要 实现 了 特 
定 的 协议 即 可 。 


前 面 给 出 的 抽象 基 类 图 表 是 为 了 展示 协议 与 抽象 基 类 的 文档 中 所 说 的 接口 之 
间 的 关系 ， 但 是 目前 为 止 还 没有 真正 继承 抽象 基 类 。 


在 接 下 来 的 几 节 中 ， 我 们 将 直接 使 用 抽象 基 类 ， 而 不 只 将 其 当 作文 档 。 


11.4 Alex Martelli KE 


介绍 完 Python 常规 的 协议 风格 接口 后 ， 下 面 讨论 抽象 基 类 。 不 过 在 分 析 示 例 
和 细节 之 前 ， 我 们 要 看 Alex Martelli 写 的 一 篇 短文 。 这 篇 短文 说 明了 Python 
为 什么 引入 抽象 基 类 。 


LN 非常 感谢 Alex Martelli。 本 书 引 用 最 多 的 束 是 他 说 的 话 ， 后 来 他 变 
成 了 本 书 的 技术 编辑 之 一 。 他 的 见解 已 经 非常 至 贵 了 ， 现 在 又 愿意 撰写 
这 篇 短文 。Python 社区 有 他 的 存在 真是 冬运 。 接 下 来 交 给 你 了 ，Alex ! 


水 禽 和 抽象 基 类 
Alex Martelli # 


HLA RL RD BE T FRA HS UE 〈 即 忽略 对 
象 的 真正 类 型 ， 转 而 关注 对 象 有 没有 实现 所 需 的 方法 、 签 名 和 语义 ) 。 


对 Python 来 说 ， 这 基本 上 是 指 避免 使 用 isinstance 检查 对 象 的 类 型 
(更 别提 type(foo) is bar 这 种 更 糟 的 检查 方式 了 ， 这 样 做 没有 任 
何 好 处 ， 甚 至 禁止 最 简单 的 继承 方式 ) 。 


总 的 来 说 ， 岗 子 类 型 在 很 多 情况 下 十 分 有 用 ; 但 是 在 其 他 情况 下 ， 随 着 
发 展 ， 通 肖 有 更 好 的 方式 。 事 情 是 这 样 的 .……… 


近代 ， 属 和 种 《包括 但 不 限于 水 禽 所 属 的 鸭 科 ) 基本 上 是 根据 表 型 系统 
学 (phenetics) 分 类 的 。 表 征 学 关注 的 是 形态 和 举止 的 相似 性 .…... 主 要 
是 表 型 系统 学 特征 。 因 此 使 用 “鸭子 类 型 "比喻 是 贴切 的 。 


然而 ， 平 行进 化 往往 会 导致 不 相关 的 种 产生 相似 的 特征 ， 形 态 和 举止 方 

面 都 是 如 此 ， 但 是 生态 位 的 相似 性 是 偶然 的 ， 不 同 的 种 仍 属 不 同 的 生态 

。 ~ 言 中 也 有 这 种 “ 侦 然 的 相似 性 *， 比 如 说 下 壕 经 典 的 面向 对 象 
TRY 


class Artist: 
def draw(self): ... 


class Gunslinger: 
def draw(self): ... 


class Lottery: 
def draw(self): ... 


显然 ， 只 因为 x 和 y 两 个 对 象 刚 好 都 有 一 个 名 为 draw 的 方法 ， 而 且 调 
用 时 不 用 传 入 参数 ， 即 x.draw() 和 y.draw()， 远 远 不 能 确保 二 者 
可 以 相互 调用 ， 或 者 具有 相同 的 抽象 。 也 就 是 说 ， 从 这 样 的 调用 中 不 能 
推导 出 语义 相似 性 。 相 反 ， 我 们 需要 一 位 渊博 的 程序 员 主 动 把 这 种 等 价 
维持 在 一 定 层 次 上 。 


生物 (和 其 他 学 科 ) 遇 到 的 这 个 问题 ， 迫 切 需 要 (从 很 多 方面 来 说 ， 是 

俊生) 表征 学 之 外 的 分 类 方式 解决 ， 即 支 序 系统 学 (cladistics) 。 这 种 

分 类 学 主要 根据 从 共同 祖先 那里 继承 的 特征 分 类 ， 而 不 是 单独 进化 的 特 

i, aa DNA 测序 变 得 便宜 又 快 ， 这 使 文 序 学 的 实用 地 位 变 得 
= 


例如 ， 草 座 〈 以 前 认为 与 其 他 碑 类 比较 相似 ) 和 麻 鸭 《以 前 认为 与 其 他 
秽 类 比较 相似 ) 现在 被 分 到 Tadornidae 亚 科 《表明 二 者 的 相似 性 比 鸭 科 
中 其 他 动物 高 ， 因 为 它们 的 共同 祖先 比较 接近 ) 。 此 外 ，DNA 分 析 表 
AA, ARPS SEIN ARS ETM) 不 是 很 像 ， 至 少 没 有 形态 和 举止 
-a 因此 把 木 鸭 单 独 分 成 了 一 属 ， 完 全 不 在 Tadornidae 亚 科 


知道 这 些 有 什么 用 呢 ? 视 情况 而 定 ! 比如 ， 逮 到 一 只 水 禽 后 ， 决 定 如 何 

亮 制 才 最 美味 时 ， 显 著 的 特征 〈 不 是 全 部 ， 例 如 一 号 羽毛 并 不 重要 ) 主 

要 是 口感 和 风味 (过 时 的 表征 学 ， 这 比 支 序 学 重要 得 多 。 但 在 其 他 方 

eee 〈 圈 养 水 禽 还 是 放养 ) , DNA 接近 性 的 作 
和 入 多 村...... 


因此 ， 参 照 水 禽 的 分 类 学 演化 ， 我 建议 在 鸭子 类 型 的 基础 上 增加 白 牲 类 
型 (goose typing) ° 


白 牧 类 型 指 ， 只 要 cls 是 抽象 基 类 ， 即 cls 的 元 类 是 
abc,.ABCMeta， 就 可 以 使 用 isinstance(obj，cls)。 


collections .abc 中 有 很 多 有 用 的 抽象 类 (Python 标准 库 的 
numbers 模块 中 还 有 一 些 ) o3 


与 具体 类 相 比 ， 抽 象 基 类 有 很 多 理论 上 的 优点 (例如 ， 参 阅 Scott Meyer 

SHY (More Effective C++: 35 个 改善 编程 与 设计 的 有 效 方法 【中文 

版 ) 》 的 “条 球 33: 将 非 尾 端 类 设计 为 抽象 类 ”， 英 文 版 见 

http://ptgmedia.pearsoncmg.com/images/020163371x/items/item33.html) ， 

Python 的 抽象 基 类 还 有 一 个 重要 的 实用 优势 : 可 以 使 用 register 类 

方法 在 终端 用 户 的 代码 中 把 某 个 类 “声明 ”为 一 个 抽象 基 类 的 “虚拟 * 子 类 
(为 此 ， 被 注册 的 类 必须 满足 抽象 基 类 对 方法 名 称 和 签名 的 要 求 ， 最 重 


SNES IIE RE 但 是 ， 开 发 那个 类 时 不 用 了 解 抽象 基 类 ， 
更 不 用 继承 抽象 基 类 ) 。 这 大 大 地 打破 了 严格 的 强 耦 合 ， 与 面向 对 象 编 
程 人 员 掌 握 的 知识 有 很 大 出 入 ， 因 此 使 用 继承 时 要 小 心 。 

有 时 ， 为 了 让 抽象 基 类 识别 子 类 ， 甚 至 不 用 注册 。 


其 实 ， 抽 象 基 类 的 本 质 就 是 几 个 特殊 方法 。 例 如 : 


>>> class Struggle: 
def _len__(self): return 23 


>>> from collections import abc 


>>> isinstance(Struggle(), abc.Sized) 
True 


可 以 看 出 ， 无 需 注 册 ，abc .Sized 也 能 把 Struggle 识别 为 自己 的 子 
类 ， 只 要 实现 了 特殊 方法 __len Ba (要 使 用 正确 的 句法 和 语义 实 
现 ， 前 者 要 求 没有 参数 ， 后 者 要 求 返回 一 个 非 负 整数 ， 指 明 对 象 的 长 

度 ; 如 果 不 使 用 规定 的 句法 和 语义 实现 特殊 方法 ， 如 __len ,会 导 
致 非常 严重 的 问题 ) 。 


后 我 想 说 的 是 : 如果 实现 的 类 体现 了 numbers ` 
collections .abc 或 其 他 框架 中 抽象 基 类 的 概念 ， 要 么 继承 相应 的 抽 
象 基 类 (必要 时 ) ， 要 么 把 类 注册 到 相应 的 抽象 基 类 中 。 开 始 开发 程序 
时 ， 不 要 使 用 提供 注册 功能 的 库 或 框架 ， 要 自己 动手 注册 ;如 果 必 须 检 
ne (这 是 最 常见 的 ) ， 例 如 检查 是 不 是 “序列 *"， 那 就 这 样 


isinstance(the_arg, collections.abc.Sequence) 


此 外 ， 不 要 在 生产 代码 中 定义 抽象 基 类 (或 元 类 )..…….. 如 采 你 很 想 这 样 
做 ， 我 打赌 可 能 是 因为 你 想 * 找 荐 >， 刚 拿 到 新 工 具 的 人 都 有 大 于 一 场 的 
冲动 。 如 果 你 能 避 开 这 些 深奥 的 概念 ， 你 (以 及 未 来 的 代码 维护 者 ) 的 
生活 将 更 愉快 ， 因 为 代码 会 变 得 简洁 明了 。 再 会 ! 


3 当然 ， 你 还 可 头目 己 定 义 抽象 基 类 ， 但 是 我 不 建议 高 级 Python 程 子 员 之 外 的 人 这 么 做 ; 同样 ， 我 也 
不 建议 你 自己 定义 元 类 .……. 我 说 的 “高 级 Python 程序 员 * 是 指 对 Python 语言 的 一 招 一 式 都 了 如 指 掌 ， 
ETER TOEA 抽象 基 类 和 元 类 也 不 是 常用 工具 。 如 此 “深层 次 的 元 编程 ”， 如 果 可 以 这 么 讲 的 
话 ， 适 合 框架 的 作者 使 用 ， 这 样 便于 众多 不 同 的 开发 团队 独立 扩展 框架 ......3 下 需要 这 么 做 的 “高 级 
Python 程序 员 ” 不 超过 1% © Alex Martelli 


p 


BRI PEM“ ARRAY Zh, Alex 还 指出 ， 继 承 抽 和 象 基 类 很 简单 ， 只 需要 实现 
oe 这 样 也 能 明确 表明 开发 者 的 意图 。 这 一 意图 还 能 通过 注册 虚拟 
类 来 实现 。 


此 外 ， 使 用 isinstance 和 issubclass 测试 抽象 基 类 更 为 人 接受 。 过 
去 ， 这 两 个 函数 用 来 测试 鸭子 类 型 ， 但 用 于 抽象 基 类 会 更 灵活 。 上 毕竟， 如 
某 个 组 件 没有 继承 抽象 基 类 ， 事 后 还 可 以 注册 ， 让 显 式 类 型 检查 通过 。 


然而 ， 即 便 是 抽象 基 类 ， 也 不 能 滥用 isinstance 检查 ， 用 得 多 了 可 能 导 
致 代码 异味 ， 即 表明 面向 对 象 设计 得 不 好 。 在 一 连 串 if/elif/elif 中 使 
用 isinstance 做 检查 ， 然 后 根据 对 象 的 类 型 执行 不 同 的 操作 ， 通 常 是 不 
好 的 做 法 ， 此 时 应 该 使 用 多 态 ， 即 采用 一 定 的 方式 定义 类 ， 让 解释 器 把 调用 
分 派 给 正确 的 方法 ， 而 不 使 用 if/elif/elif 块 硬 编码 分 派 逻 辑 。 


FR 


本 具体 使 用 时 ， 上 述 建 议 有 一 个 常见 的 例外 :有些 Python API 接受 
一 个 字符 串 或 字符 串 序 列 ;， 如 果 只 有 一 个 字符 串 ， 可 以 把 它 放 到 列表 

中 ， 从 而 简化 处 理 。 因 为 字符 串 是 序列 类 型 ， 所 以 为 了 把 它 和 其 他 不 可 
变 序列 区 分 开 ， 最 简单 的 方式 是 使 用 ijsinstance(x，str) 检查 。4 


4 可 惜 ， 在 Python 3.4 中 没有 能 把 字符 串 和 元 组 或 其 他 不 可 变 序列 区 分 开 的 抽象 基 类 ， 因 此 必须 测试 
str。 在 Python 2 中 ，basestr 类 型 可 以 协助 这 样 的 测试 。basestr 不 是 抽象 基 类 ， 但 它 是 str 
和 unicode 的 超 类 ; 然而 ，Python 3 把 basestr 去 掉 了 。 奇 怪 的 是 ，Python 3 中 有 个 


collections.abc.ByteString 类 型 ， 但 是 它 只 能 检测 bytes 和 bytearray 类 型 。 


男 一 方面 ， 如 果 必 须 强制 执行 API 契约 ， 通 常 可 以 使 用 ijsinstance 检查 
抽象 基 类 。“ 老 兄 ， 如 果 你 想 调 用 我 ， 必 须 实现 这 个 ”， 正 如 本 书 技术 审 校 
Lennart Regebro 所 说 的 。 这 对 采用 插入 式 架构 的 系统 来 说 特别 有 用 。 在 框架 
之 外 ， 了 鸭子 类 型 通常 比 类 型 检查 更 简单 ， 也 更 灵活 。 


例如 ， 本 书 有 几 个 示例 要 使 用 序列 ， 把 它 当 成 列表 处 理 。 我 没有 检查 参数 的 
类 型 是 不 是 1ist， 而 是 直接 接受 参数 ， 立 即使 用 它 构建 一 个 列表 。 这 样 ， 
我 瓯 可 以 接受 任何 可 迭代 对 象 ， 如 果 参 数 不 是 可 迭代 对 象 ， 调 用 立即 失败 ， 
并 且 提 供 非 常 清晰 的 错误 消息 。 本 章 后 面 示例 11-13 中 的 代码 就 是 这 么 做 

的 。 当 然 ， 如 果 序 列 太 长 或 者 需要 就 地 修改 序列 而 导致 无 法 复制 参数 ， 就 不 
能 采用 这 种 方式 ， 此 时 ， 使 用 isinstance(X， 

abc .MutableSequence) 更 好 。 如 果 可 以 接受 任何 可 迭代 对 象 ， 也 可 以 调 
用 iter(x) 函数 获得 一 个 迭代 器 ， 详 情 参 见 14.1.1 市 。 


模仿 collections.namedtuple 
(https://docs.python.org/3/library/collections.html#collections.namedtuple) 处 


理 field_names 参数 的 方式 也 是 一 例 : Field_names 的 值 可 以 是 单个 字 
符 串 ， 以 空格 或 逗号 分 隔 标识 符 ， 也 可 以 是 一 个 标识 符 序列 。 此 时 可 能 想 使 
用 isinstance， 但 我 会 使 用 鸭子 类 型 ， 如 示例 11-7 所 示 。3 


5 这 段 代码 摘自 示例 21-2 。 


示例 11-7 ”使 用 鸭子 类 型 处 理 单 个 字符 串 或 由 字符 串 组 成 的 可 迭代 对 象 


try: @ 
field_names = field_names.replace(',', ' ').split() @ 
except AttributeError: © 


pass @ 
field_names = tuple(field_names) © 


@ 假设 是 单个 字符 串 (EAFP 风格 ， 即 “取得 原谅 比 获得 许可 容易 ”) 
@ IE SAMA, PTT BL PRIN © 


© jik, field_names 看 起 来 不 像 是 字符 串 .……… 没 有 .replace 方法 ,或 
者 返回 值 不 能 使 用 .split 方法 拆 分 。 


@ 假设 已 经 是 由 名 称 组 成 的 可 迭代 对 象 了 。 
© 72 TEAR. 也 为 了 保存 一 份 副本 ， 使 用 所 得 值 创建 一 个 
元 组 。 


在 那 篇 短文 的 最 后 ，Alex 多 次 强调 ， 要 抑制 住 创 建 抽象 基 类 的 冲动 。 滥 用 抽 
象 基 类 会 造成 灾难 性 后 果 ， 表 明 语 言 太 注重 表面 形式 ， 这 对 以 实用 和 务实 著 
称 的 Python 可 不 是 好 事 。 在 审阅 本 书 的 过 程 中 ，Alex 写 道 : 

抽象 基 类 是 用 于 封装 框架 引入 的 一 般 性 概念 和 抽象 的 ， 例 如 “一 个 序 

列 > 和 “一 个 确切 的 数 "。 (读者 ) 基本 上 不 需要 自己 编写 新 的 抽象 基 类 ， 
只 要 正确 使 用 现 有 的 抽象 基 类 ， 束 能 获得 99.9% 的 好 处 ， 而 不 用 冒 着 设 
计 不 当 导 致 的 巨大 风险 。 


下 面 通过 实例 讲解 白 忽 类 型 。 


11.5 ”定义 抽象 基 类 的 子 类 


我 们 将 遵循 Martelli 的 建议 ， 先 利用 现 有 的 抽象 基 类 
(collections.MutableSequence) ， 然 后 再 斗 胆 自己 定义 。 在 示例 

11-8 中 ， 我 们 明确 把 FrenchDeck2 声明 为 

collections.MutableSequence 的 子 类 。 


示例 11-8 frenchdeck2.py: FrenchDeck2, 
collections .MutableSequence 的 子 类 


import collections 


Card = collections.namedtuple('Card', ['rank', 'suit']) 


class FrenchDeck2(collections.MutableSequence): 
ranks = [str(n) for n in range(2, 11)] + list('JQKA' ) 
suits = 'spades diamonds clubs hearts'.split() 


def _ init (self): 
self._cards = [Card(rank, suit) for suit in self.suits 
for rank in self.ranks] 


def _len_ (self): 
return len(self._cards) 


def _ getitem (self, position): 
return self._cards[position] 


def _ setitem (self, position, value): # @ 
self._cards[position] = value 


def _ delitem (self, position): # @ 
del self._cards[position] 


def insert(self, position, value): #® 
self._cards.insert(position, value) 


@ 为 了 文 持 洗 牌 ， 只 需 实现 setitem_ 方法 。 


@ 但 是 继承 MutableSequence 的 类 必须 实现 delitem _ Wik, me 
MutableSequence 类 的 一 个 抽象 方法 。 


© 此 外 ， 还 要 实现 insert 方法 ， 这 是 MutableSequence 类 的 第 三 个 抽 
RIVE ° 


导入 时 (加 载 并 编译 frenchdeck2.py 模块 时 ) , Python 不 会 检查 抽象 方法 的 
实现 ， 在 运行 时 实例 化 FrenchDeck2 类 时 才 会 真正 检查 。 因 此 ， 如 果 没 有 
正确 实现 某 个 抽象 方法 ，Python 会 抛 出 TypeError 异常 ， 并 把 错误 消息 设 


为 "Can't instantiate abstract class FrenchDeck2 with 
abstract methods__delitem__, insert": JE@iX SJR, Be 
FrenchDeck2 类 不 需要 delitem F insert 提供 的 行为 ， 也 要 实 
现 ， 因 为 MutableSequence 抽象 基 类 需要 它们 。 


如 图 11-2 Pras, Sequence 和 MutableSequence 抽象 基 类 的 方法 不 全 是 
抽象 的 。 


MutableSequence 
setitem 
L _ delitem 


—getitem_ insert 


—contains__ append 


iter 
__reversed__ 
index 

count 


reverse 
extend 
pop 
remove 
_iadd _ 


图 11-2: MutableSequence 抽象 基 类 和 collections .abc 中 它 的 超 类 
= 类 图 〈 箭 头 由 子 类 指向 祖先 ， 以 斜体 显示 的 名 称 是 抽象 类 和 抽象 方 


FrenchDeck2 从 Sequence 继承 了 几 个 拿 来 即 用 的 具体 方法 : 

_ contains 、 iter 、 reversed ` index fI count ° 
FrenchDeck2 M MutableSequence 继承 了 append ` extend ` pop ` 
remove 和 ”iadd 。 


在 collections.abc 中 ， 每 个 抽象 基 类 的 具体 方法 都 是 作为 类 的 公开 接 
口 实现 的 ， 因 此 不 用 知道 实例 的 内 部 结构 。 


~I 要 想 实现 子 类 ， 我 们 可 以 覆盖 从 抽象 基 类 中 继承 的 方法 ， 以 更 高 
效 的 万 式 重新 实现 。 MU, _ contains _ 方法 会 全 面 扫描 序列 ， 电 
是 ， 如 果 你 定义 的 序列 按 顺 序 保存 元 素 ， 那 束 可 以 重新 定义 

_ contains _ 方法 ,使 用 bisect 函数 做 二 分 查找 (参见 2.8 节 ) , 
从 而 提升 搜索 速度 。 


a 分 使 用 抽象 基 类 ， 我 们 要 知道 有 哪些 抽象 基 类 可 用 。 接 下 来 介绍 集 


[0] 


11.6 标准 库 中 的 抽象 基 类 


从 Python 2.6 开始 ， 标 准 库 提 供 了 抽象 基 类 。 大 多 数 抽象 基 类 在 
collections.abc 模块 中 定义 ， 不 过 其 他 地 方 也 有 。 例 如 ，numbers 和 
io 包 中 有 一 些 抽 象 其 类。 但是，collections.abc 中 的 抽象 基 类 最 常 
用 。 我 们 来 看 看 这 个 模块 中 有 哪些 抽象 基 类 。 


11.6.1 collections .abc 模 块 中 的 抽象 基 类 


AI 标准 库 中 有 两 个 名 为 abc 的 模块 ， 这 里 说 的 是 
collections .abc。 为 了 减少 加 载 时 间 ，Python 3.4 在 
collections 包 之 外 实现 这 个 模块 〈 在 Lib/_collections_abc.py 中 ) ， 
KEZ collections 分 开导 入 。 另 一 个 abc 模块 就 是 abc (BẸ 
Lib/abc.py) ， 这 里 定义 的 是 abc ,ABC 类 。 每 个 抽象 基 类 都 依赖 这 个 
类 ， 但 是 不 用 导入 它 ， 除 非 定 义 新 抽象 其 类 。 


Python 3.4 在 collections.abc 模块 中 定义 了 16 个 抽象 其 类， 简要 的 
UML 类 图 (没有 属性 名 称 ) 如 图 11-3 所 示 。collections.abc 的 官方 文 
档 中 有 个 不 错 的 表格 ， 对 各 个 抽象 基 类 做 了 总 结 ， 说 明了 相互 之 间 的 关系 ， 
以 及 各 个 基 类 提供 的 抽象 方法 和 具体 方法 〈 称 为 “混入 方法 。 图 11-3 中 有 
很 多 多 重 继承 。 我 们 将 在 第 12 章 着 重 说 明 多 重 继承 ， 讨 论 抽 象 基 类 时 通常 
不 用 考虑 多 重 继承 。8 


6Java 认为 多 重 继承 有 危害 ， 因 此 没有 提供 支持 ， 但 是 提供 了 接口 : Java 的 接口 可 以 扩展 多 个 接口 ， 
而 且 Java 的 类 可 以 实现 多 个 接口 。 


> W 


MutableSequence 


MutableMapping 


K 11-3: collections. abc 模块 中 各 个 抽象 基 类 的 UML 类 图 
下 面 详 述 图 11-3 中 那 一 群 基 类 。 
Iterable、Container 和 Sized 

各 个 集合 应 该 继承 这 三 个 抽象 基 类 ， 或 者 至 少 实现 兼容 的 协议 。 
Iterable iit ___iter__ FyAScHHALL, Container 通过 


_ contains ”方法 文 持 in 运算 符 ，Sized 通 过 len_ 方法 支持 
len() BRAY ° 


Sequence ` Mapping 和 Set 


这 三 个 是 主要 的 不 可 变 集合 类 型 ， 而 且 各 自 都 有 可 变 的 子 类 。 
MutableSequence 的 详细 类 图 见 图 11-2; MutableMapping 和 
MutableSet 的 类 图 在 第 3 章 中 〈 见 图 3-1 和 图 3-2) ° 


MappingView 


在 Python 3 中 ， 映 射 方法 .items() > .keys() 7 .values() 返回 
的 对 象 分 别 是 ItemsView ` KeysView 和 ValuesView 的 实例 。 前 两 个 类 
还 从 Set 类 继承 了 丰富 的 接口 ， 包 含 3.8.3 节 所 述 的 全 部 运算 符 。 


Callable 和 Hashable 


这 两 个 抽象 基 类 与 集合 没有 太 大 的 关系 ， 只 不 过 因为 
collections.abc 是 标准 库 中 定义 抽象 基 类 的 第 一 个 模块 ， 而 它们 又 太 重 
要 了 ， 因 此 才 把 它们 放 到 collections. abc 模块 中 。 我 从 未 见 过 
Callable 或 Hashable 的 子 类 。 这 两 个 抽象 基 类 的 主要 作用 是 为 内 置 函 
žr isinstance 提供 支持 ， 以 一 种 安全 的 方式 判断 对 象 能 不 能 调用 或 散 
列 。7 


7? 若 想 检 查 是 否 能 调用 ， 可 以 使 用 内 置 的 callable( ) 函数 ;但 是 没有 类 似 的 hashable() WR, 
此 测试 对 象 是 否 可 散 列 ， 最 好 使 用 isinstance(my_obj, Hashable)。 


Iterator 
注意 它 是 Iterable 的 子 类 。 我 们 将 在 第 14 章 详细 讨论 。 
继 collections.abe 之 后 ， 标 准 库 中 最 有 用 的 抽象 基 类 包 是 numbers。 
下 面 就 来 介绍 。 
11.6.2 ”抽象 基 类 的 数字 塔 


numbers 包 定 义 的 是 “数字 塔 ”\ 即 各 个 抽象 基 类 的 层次 结构 是 线性 的 ) ， 
其 中 Number 是 位 于 最 顶端 的 超 类 ， 随 后 是 Complex 子 类， 依次 往 下 ， 最 
底 端 是 Integral 类 : 


e Number 

e Complex 

e Real 

e Rational 

e Integral 
因此 ， 如 采 想 检查 一 个 数 是 不 是 整数 ， 可 以 使 用 isinstance(X， 
numbers.Integral)， 这 样 代码 就 能 接受 int、bool (int 的 子 类 ) , 
或 者 外 部 库 使 用 numbers 抽象 基 类 注册 的 其 他 类 型 。 为 了 满足 检查 的 需 
要 ， 你 或 者 你 的 API 的 用 户 始 终 可 以 把 兼容 的 类 型 注册 为 
numbers.Integral 的 虚拟 子 类 。 


与 之 类 似 ， 如 采 一 个 值 可 能 是 浮 点 数 类 型 ， 可 以 使 用 isinstance(x, 
numbers.Real) 检查 。 这 样 代码 就 能 接受 bool、int、float、 


fractions.Fraction, 或 者 外 部 库 (如 NumPy， 它 做 了 相应 的 注册 ) $e 
供 的 非 复 数 类 型 。 


Be decimal.Decimal 没有 注册 为 numbers .Real 的 虚拟 子 类 ， 
这 有 点 奇怪 。 没 注册 的 原因 是 ， 如 果 你 的 程序 需要 Decimal 的 精度 ， 
要 防止 与 其 他 低 精 度数 字 类 型 混 消 ， 尤 其 是 浮 点 数 。 
了 解 一 些 现 有 的 抽象 基 类 之 后 ， 我 们 将 从 零 开 始 实现 一 个 抽象 基 类 ， 然 后 实 
际 使 用 ， 以 此 实践 白 笋 类 型 。 这 么 做 的 目的 不 是 鼓励 每 个 人 都 立即 开始 定义 
抽象 基 类 ， 而 是 教 你 怎么 阅读 标准 库 和 其 他 包 中 的 抽象 基 类 源码 。 
11.7 定义 并 使 用 一 个 抽象 基 类 
为 了 证 明 有 必要 定义 抽象 基 类 ， 我 们 要 在 框架 中 找到 使 用 它 的 场景 。 想 象 一 
下 这 个 场景 : 你 要 在 网 站 或 移动 应 用 中 显示 随机 广告 ， 但 是 在 整个 广告 清单 
轮转 一 遍 之 前 ， 不 重复 显示 广告 。 假 设 我 们 在 构建 一 个 广告 管理 框架 ， 名 为 
ADAM。 它 的 职责 之 一 是 ， 支 持 用 户 提供 随机 挑选 的 无 重复 类 。83 为 了 让 
ADAM 的 用 户 明确 理解 “随机 挑选 的 无 重复 ”组 件 是 什么 意思 ， 我 们 将 定义 一 
个 抽象 基 类 。 
8 客户 可 能 要 审查 随机 发 生 器 ， 或 者 代理 想 作弊 ..……. 谁 知道 呢 ! 
受到 “ 栈 ” 和 “队列 ”( 以 物体 的 排放 方式 说 明 抽 象 接口 ) 启发 ， 我 将 使 用 现实 
世界 中 的 物品 命名 这 个 抽象 基 类 : 宾 果 机 和 彩票 机 是 随机 从 有 限 的 集合 中 挑 
选 物品 的 机 器 ， 选 出 的 物品 没有 重复 ， 直 到 选 完 为 止 。 


我 们 把 这 个 抽象 基 类 命名 为 Tombo1a， 这 是 宾 果 机 和 打 乱 数字 的 滚动 容器 
的 意大利 名 。? 


9 牛津 英语 词典 对 tombola 的 定义 是 “ 像 对 号 游戏 (lotto) 那样 的 彩票 (lottery) ” » 
Tombola 抽象 基 类 有 四 个 方法 ， 其 中 两 个 是 抽象 方法 。 

。 .load(...): 把 元 素 放 入 容器 。 

。 .pick(): 从 容器 中 随机 拿 出 一 个 元 素 ， 返 回 选中 的 元 素 。 
另外 两 个 是 具体 方法 。 


。 .loaded(): 如 果 容 器 中 至 少 有 一 个 元 素 ， 返 回 True。 


。 .inspect(): 返回 一 个 有 序 元 组 ， 由 容器 中 的 现 有 元 素 构成 ， 不 会 修 
改 容 器 的 内 容 〈 内 部 的 顺序 不 保留 ) 。 


11-4 展示 了 Tombola 抽象 基 类 和 三 个 具体 实现 。 


load 
pick 
loaded 
inspect 


Vn 


~s «registered» 


BingoCage 


int 
load 
pick 


loaded 
inspect 


图 11-4: 一 个 抽象 基 类 和 三 个 子 类 的 UML 类 图 。 根 据 UML 的 约定 ， 
Tombola 抽象 基 类 和 它 的 抽象 方法 使 用 斜体 。 虚 线 箭 头 用 于 表示 接口 实 
现 ， 这 里 它 表 示 TomboList Æ Tombola 的 虚拟 子 类 ， 因 为 TomboList 


是 注册 的 ， 本 章 后 面 会 说 明 这 一 点 了 


10 «registered» 和 <virtual subclass» 不 是 标准 的 UML 词汇 。 我 们 使 用 二 者 表示 Python 类 之 间 的 关系 。 


o 


Tombola 抽象 基 类 的 定义 如 示例 11-9 所 示 


示例 11-9 tombola.py: Tombola 是 抽象 基 类 ， 有 两 个 抽象 方法 和 两 个 
具体 方法 


import abc 


class Tombola(abc.ABC): @ 


@abc.abstractmethod 
def load(self, iterable): @ 
"" "从 可 送 代 对 和 象 中 添加 元 素 。""" 


@abc.abstractmethod 
def pick(self): © 
"" "随机 删除 元 素 ， 然 后 将 其 返回 。 


如 果实 例 为 空 ， 这 个 方法 应 该 抛 出 `*LookupError`。 


def loaded(self): @ 
""" 如 果 至 少 有 一 个 元 素 ， 返回 "True` ， 否 则 返回 "False、。""" 
return bool(self.inspect()) © 


def inspect(self): 
"" "返回 一 个 有 序 元 组 ， 由 当前 元 素 构 成 。""" 
items = [] 
while True: © 
try: 


items.append(self.pick()) 
except LookupError: 
break 
self.load(items) @ 
return tuple(sorted(items) ) 


@ 目 己 定义 的 抽象 基 类 要 继承 abc. ABC ° 


© 抽象 方法 使 用 @abstractmethod 装饰 器 标记 ， 而 且 定 义 体 中 通常 只 有 
SOM FFB o H 


HL 在 抽象 基 类 出 现 之 前 ， 抽 象 方法 使 用 raise NotImplementedError 语句 表明 由 子 类 负责 实 
现 。 


© 根据 文档 字符 串 ， 如 果 没 有 元 素 可 选 ， 应 该 抛 出 LookupError ° 
@ 抽象 基 类 可 以 包含 具体 方法 。 


© 抽象 基 类 中 的 具体 方法 只 能 依赖 抽象 基 类 定义 的 接口 ( 即 只 能 使 用 抽象 基 
类 中 的 其 他 具体 方法 、 抽 象 方法 或 特性 ) 。 


O 我 们 不 知道 具体 子 类 如 何 存储 元 素 ， 不 过 为 了 得 到 inspect 的 结果 ， 我 
们 可 以 不 断 调 用 .pick( ) 方法 ， 把 Tombola 清空 ..………. 


@ 然后 再 使 用 ,load(... ) 把 所 有 元 素 放 回去 。 


本 其 实 ， 抽 象 方 法 可 以 有 实现 代码 。 即 便 实现 了 ， 子 类 也 必须 覆盖 
抽象 方法 ， 但 是 在 子 类 中 可 以 使 用 super( ) 函数 调用 抽象 方法 ， 为 它 
添加 功能 ， 而 不 是 从 头 开始 实现 。@abstractmethod 装饰 器 的 用 法 参 
见 abc 模块 的 文档 。 


示例 11-9 中 的 ,inspect( ) 方法 实现 的 方式 有 些 笨拙 ， 不 过 却 表明 ， 有 了 
.pick() #9 .load(..) 方法 ， 若 想 查 看 Tombola 中 的 内 容 ， 可 以 先 把 所 

有 元 素 挑 出 ， 然 后 再 放 回 去 。 这 个 示例 的 目的 是 强调 抽象 基 类 可 以 提供 具体 
方法 ， 只 要 依赖 接口 中 的 其 他 方法 就 行 。 Tombola 的 具体 子 类 知晓 内 部 数 

N .inspect( ) 方法 ， 使 用 更 聪明 的 方式 实现 ， 但 这 不 是 
强 | Te o 


示例 11-9 FAY .loaded() 方法 没有 那么 笨拙 ， 但 是 耗 时 : 调用 
.inspect( ) 方法 构建 有 序 元 组 的 目的 仅仅 是 在 其 上 调用 bool() 函数 。 
这 样 做 是 可 以 的 ， 但 是 具体 子 类 可 以 做 得 更 好 ， 后 文 见 分 晓 。 


注意 ， 实 现 .inspect( ) 方法 采用 的 迁 回 方式 要 求 捕获 self .pick() WW 
出 的 LookupError。self.pick() 抛 出 LookupError 这 一 事实 也 是 接 
口 的 一 部 分 ， 但 是 在 Python 中 没 办 法 声明 ， 只 能 在 文档 中 说 明 (参见 示例 

11-9 中 抽象 方法 pick 的 文档 字符 串 ) 


我 选择 使 用 LookupError 异常 的 原因 是 ， 在 Python 的 异常 层次 关系 中 ， 
ES IndexError 和 KeyError 有 关 ， 这 两 个 是 具体 实现 Tombola 所 用 
的 数据 结构 最 有 可 能 抛 出 的 异常 。 据 此 ， 实 现代 码 可 能 会 抛 出 
LookupError ` IndexError 或 KeyError 异常 。 异 常 的 部 分 层次 结构 如 
示例 11-10 所 示 ( 完整 的 层次 结构 参见 Python 标准 库 文 档 中 的 “5.4. 


eee 


Exception hierarchy” — 1 
12 il 3 Š P A i 5 dpa 
J https://docs.python.org/dev/library/exceptions.html#exception-hierarchy 编者 注 


示例 11-10 异常 类 的 部 分 层次 结构 


BaseException 


SystemExit 
KeyboardInterrupt 
GeneratorExit 

Exception 


StopIteration 
ArithmeticError 
FloatingPointError 


= OverflowError 
ZeroDivisionError 


AssertionError 
AttributeError 
BufferError 
EOFError 
ImportError 
| 一 LookupError @ 
| | 一 IndexError @ 
L— KeyError © 
MemoryError 
. etc. 


@ 我 们 在 Tombola.inspect 方法 中 处 理 的 是 LookupError 异常 。 


@ IndexError 是 LookupError 的 子 类 ， 党 试 从 序列 中 获取 索引 超过 最 
后 位 置 的 元 素 时 抛 出 。 


© 使 用 不 存在 的 键 从 映射 中 获取 元 素 时 ， 抛 出 KeyError 异常 。 

我 们 自己 定义 的 Tombola 抽象 基 类 完成 了 。 为 了 一 睹 抽象 基 类 对 接口 所 做 
的 检查 ， 下 面 我 们 党 试 使 用 一 个 有 缺陷 的 实现 来 糊弄 Tombola， 如 示例 11- 
11 所 示 。 


示例 11-11 不 符合 Tombola 要 求 的 子 类 无 法 蒙混 过 关 


>>> from tombola import Tombola 
>>> class Fake(Tombola): # @ 
def pick(self): 
return 13 


>>> Fake #@ 


<class '__main__.Fake'> 
>>> f = Fake() # ® 
Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
TypeError: Can't instantiate abstract class Fake with abstract methods 
load 


四 把 Fake 声明 为 Tombola 的 子 类 。 
@ 创建 了 Fake 类 ， 目 前 没有 错误 。 
© 党 试 实例 化 Fake 时 抛 出 了 TypeError。 错 误 消 息 十 分 明确 : Python 认 


H Fake 是 抽象 类 ， 因 为 它 没有 实现 load 方法 ， 这 是 Tombola 抽象 基 类 
声明 的 抽象 方法 之 一 。 


我 们 的 第 一 个 抽象 基 类 定义 好 了 ， 而 且 还 用 它 实际 验证 了 一 个 类 。 稍 后 我 们 
将 定义 Tombola 抽象 基 类 的 子 类 ， 在 此 之 前 必须 说 明 抽 象 基 类 的 一 些 编程 
规则 。 


11.7.1 ”抽象 基 类 句法 详解 

声明 抽象 基 类 最 简单 的 方式 是 继承 abe. ABC 或 其 他 抽象 基 类 。 

然而 ，abc .ABC 是 Python 3.4 新 增 的 类 ， 因 此 如 果 你 使 用 的 是 旧版 
Python， 那 么 无 法 继承 现 有 的 抽象 基 类 。 此 时 ， 必 须 在 class 语句 中 使 用 


metaclass= 关键 字 ， 把 值 设 为 abc ,ABCMeta (不 是 abc.ABC) 。 在 示 
例 11-9 中 ， 可 以 写成 : 


class Tombola(metaclass=abc.ABCMeta): 
Haras 


metaclass= 关键 字 参 数 是 Python 3 引入 的 。 在 Python 2 中 必须 使 用 
_ metaclass 类 属性 : 


class Tombola(object): # 这 是 Python 2! ! ! 
__metaclass__ = abc.ABCMeta 
# 


元 类 将 在 第 21 章 讲 解 。 现 在 ， 我 们 暂且 把 元 类 理解 为 一 种 特殊 的 类 ， 同 样 
也 把 抽象 基 类 理解 为 一 种 特殊 的 类 。 例 如 , “常规 的 ”类 不 会 检查 子 类 ， 因 此 


这 是 抽象 基 类 的 特殊 行为 。 


除了 @abstractmethod 之 外 ，abc 模块 还 定义 了 
@abstractclassmethod、@abstractstaticmethod 和 
@abstractproperty 三 个 装饰 器 。 人 然而， 后 三 个 装饰 器 从 Python 3.3 起 废 
弃 了 ， 因 为 装饰 器 可 以 在 @abstractmethod 上 堆 琶 ， 那 三 个 就 显得 多 余 
了 。 例 如 ， 声 明 抽 象 类 方法 的 推荐 方式 是 : 
class MyABC(abc.ABC): 


@classmethod 
@abc.abstractmethod 


def an_abstract_classmethod(cls, ...): 
pass 


Be 


or ela 装饰 器 的 顺序 通常 很 重要 ，@abstractmethod 的 文档 就 特别 
Aco: 
写 其 他 方法 描述 述 符 一 起 使 用 时 ，abstractmethod( ) 应 该 放 在 最 
AB a. 
也 就 是 说 ， 在 @abstractmethod 和 def 语句 之 间 不 能 有 其 他 装饰 
2% ° 


1314 abc 模块 文档 中 的 @abc.abstractmethod 词 条 。 


说 明 抽象 基 类 的 句法 之 后 ， 我 们 要 通过 实现 几 个 功能 完善 的 具体 子 代 来 使 用 


Tombola ° 


11.7.2 ”定义 Tombo1la 抽 象 基 类 的 子 类 


定义 好 Tombola 抽象 基 类 之 后 ， 我 们 要 开发 两 个 具体 子 类 ， 满 足 Tombola 
规定 的 接口 。 这 两 个 子 类 的 类 图 如 图 11-4 所 示 ， 图 中 还 有 将 在 下 一 节 讨 论 的 


虚拟 子 类 。 

示例 11-12 中 的 BingoCage 类 是 在 示例 5-8 的 基础 上 修改 的 ， 使 用 了 更 好 
的 随机 发 生 器 。BingoCage 实现 了 所 需 的 抽象 方法 load 和 pick, M 
Tombola 中 继承 了 loaded Wik, Hi J inspect 方法 ， 还 增加 了 
-call fae 


示例 11-12 bingo.py: BingoCage Æ Tombola 的 具体 子 类 


import random 


from tombola import Tombola 


class BingoCage(Tombola): @ 


def _ init__(self, items): 
self. _randomizer = random.SystemRandom() @ 
self._items = [] 
self.load(items) © 


def load(self, items): 
self._items.extend(items) 


self._randomizer.shuffle(self._items) @ 


def pick(self): © 
try: 
return self._items.pop() 
except IndexError: 
raise LookupError('pick from empty BingoCage' ) 


def _call_(self): © 
self .pick() 


@ 明确 指定 BingoCage 类 扩展 Tombola 类 。 


@ 假设 我 们 将 在 线 上 游戏 中 使 用 这 个 。random.SystemRandom 使 用 
os.urandom(...) 函数 实现 random API ° 根据 os 模块 的 文档 ， 
os.urandom(...) 函数 生成 < 适合 用 于 加 密 ” 的 随机 字 节 序列 。 


© EFE .load(...) 方法 实现 初始 加 载 。 


@ 没有 使 用 random.shuffle() 函数 ， 而 是 使 用 SystemRandom 实例 的 
.Shuffle( ) 方法 。 


© pick 方法 的 实现 方式 与 示例 5-8 一 样 。 


© __call HER ANH) 5-8 中 的 一 样 。 它 没 必要 满足 Tombola 接口 ， 添 加 
额外 的 方法 没有 问题 。 


BingoCage M Tombola 中 继承 了 耗 时 的 Loaded 方法 和 笨拙 的 inspect 
方法 。 这 两 个 方法 都 可 以 覆盖 ， 变 成 示例 11-13 中 速度 更 快 的 一 行 代 码 。 这 
里 想 表达 的 观点 是 : 我 们 可 以 偷懒 ， 直 接 从 抽象 基 类 中 继承 不 是 那么 理想 的 
具体 方法 。 从 Tombola 中 继承 的 方法 没有 Bingocage 上 自己 定义 的 那么 
R, 不 过 只 要 Tombola 的 子 类 正确 实现 pick 和 load 方法 ， 束 能 提供 正 
确 的 结果 。 


示例 11-13 是 Tombola 接口 的 另 一 种 实现 ， 虽 然 与 之 前 不 同 ， 但 完全 有 
效 。LotteryBlower 打 乱 “数字 球 ” 后 没有 取出 最 后 一 个 ， 而 是 取出 一 个 随 
机 位 置 上 的 球 。 


示例 11-13 lotto.py: LotteryBlower Æ Tombola 的 具体 子 类 ， 履 
盖 了 继承 的 ijnspect 和 loaded 方法 


import random 


from tombola import Tombola 


class LotteryBlower (Tombola): 


def _ init__(self, iterable): 
self._balls = list(iterable) @ 


def load(self, iterable): 
self._balls.extend(iterable) 


def pick(self): 
try: 
position = random.randrange(len(self._balls)) @ 
except ValueError: 
raise LookupError('pick from empty LotteryBlower' ) 
return self._balls.pop(position) © 


loaded(self): @ 
return bool(self._balls) 


inspect(self): © 
return tuple(sorted(self._balls)) 


@ 初始 化 方法 接受 任何 可 迭代 对 象 : 把 参数 构建 成 列表 。 


@ REA, random.randrange(...) 函数 抽出 ValueError， 为 
THA Tombo1a， 我 们 捕获 它 ， 抛 出 LookupError 。 


否则 ， 从 self._balls 中 取出 随机 选中 的 元 素 。 


@ ik loaded 方法 ， 避 免 调用 inspect 方法 (示例 11-9 中 的 
Tombola.loaded 方法 是 这 么 做 的 ) 。 我 们 可 以 直接 处 理 self._balls 
而 不 必 构 建 整个 有 序 元 组 ， 从 而 提升 速度 。 


O 使 用 一 行 代 码 履 盖 inspect 方法 。 


示例 11-13 中 有 个 习惯 做 法 值得 指出 : 在 init 方法 中 ， 
self._balls 保存 的 是 list(iterable), 而 不 是 iterable 的 引用 

( 即 没有 直接 把 iterable 赋值 给 self._balls) 。 前 面 说 过 ， 这 样 做 
使 得 LotteryBlower 更 灵活 ， 因 为 iterable 参数 可 以 是 任何 可 迭代 的 
类 型 。 把 元 素 存 入 列表 中 还 确保 能 取出 元 素 。 就 算 iterable 参数 始终 传 入 


yz, list(iterable) 会 创建 参数 的 副本 ， 这 依然 是 好 的 做 法 ， 因 为 我 
们 要 从 中 删除 元 素 ， 而 客户 可 能 不 希望 自己 提供 的 列表 被 修改 。*” 


MRTE Martelli 写 的 “水 禽 和 抽象 基 类 ”短文 之 后 以 此 为 例 说 明 觅 子 类 型 。 


19.4.2 节 专 门 讨论 了 这 种 防止 混淆 别名 的 问题 。 


Se eee 使 用 register 方法 声明 虚拟 子 


11.7.3 Tombola 的 虚拟 子 类 


日 科 类 型 的 一 个 基本 特性 (也 是 值得 用 水 禽 来 命名 的 原因 ) : 即便 不 继承 ， 
也 有 办 法 把 一 个 类 注册 为 抽象 基 类 的 虚拟 子 类 。 这 样 做 时 ， 我 们 保证 注册 的 
类 忠实 地 实现 了 抽象 基 类 定义 的 接口 ， 而 Python 会 相信 我 们 ， 从 而 不 做 检 
Ee MRR iS, ABA LATTA EE IEE GAR ° 


注册 虚拟 子 类 的 方式 是 在 抽象 基 类 上 调用 register 方法 。 这 么 做 之 后 ， 注 
册 的 类 会 变 成 抽象 基 类 的 虚拟 子 类 ， 而 且 issubclass 和 isinstance 等 
函数 都 能 识别 ， 但 是 注册 的 类 不 会 从 抽象 基 类 中 继承 任何 方法 或 属性 。 


你 虚拟 子 类 不 会 继承 注册 的 抽象 基 类 ， 而 且 任 何 时 候 都 不 会 检查 它 
和 是否 符 合 抽象 基 类 的 接口 ， 即 便 在 实例 化 时 也 不 会 检查 。 为 了 避免 运行 
时 错误 ， 虚 拟 子 类 要 实现 所 需 的 全 部 方法 。 


register 方法 通常 作为 普通 的 函数 调用 (参见 11.9 节 ) ， 不 过 也 可 以 作为 
装饰 器 使 用 。 在 示例 11-14 中 ， 我 们 使 用 装饰 器 句法 实现 了 TomboList 
X, Xæ Tombola 的 一 个 虚拟 子 类 ， 如 图 11-5 所 示 。 


MutableSequence 
2 


| 
i «registered» 


init 

—len— 
extend <] 

__ bool _ 


图 11-5: TomboList 的 UML RA, ČÆ list 的 真实 子 类 和 Tombola 的 
虚拟 子 类 


TomboList 能 像 它 宣称 的 那样 使 用 ，doctest 能 证 明 这 一 点 ， 详 情 参 见 11.8 


TJ o 


示例 11-14 tombolist.py: TomboList Æ Tombola 的 虚拟 子 类 


from random import randrange 


from tombola import Tombola 


@Tombola.register # @ 
class TomboList(list): # 四 


def pick(self): 
if self: #60 
position = randrange(len(self)) 


return self.pop(position) # @ 
else: 
raise LookupError('pop from empty TomboList' ) 
load = list.extend # © 


def loaded(self): 
return bool(self) # © 


def inspect(self): 
return tuple(sorted(self) ) 


# Tombola.register(TomboList) # @ 


@ 把 Tombolist 注册 为 Tombola 的 虚拟 子 类 。 


@ Tombolist 扩 展 list。 


© Tombolist 从 list 中 继承 bool 方法， 列表 不 为 空 时 返回 
True 。 


@ pick 调用 继承 自 1ist 的 self ,pop 方法 ， 传 入 一 个 随机 的 元 素 索引 。 
© Tombolist.load 5 list.extend 一 样 。 


© loaded 方法 委托 bool HR o 16 


16] oaded 方法 不 能 采用 load 方法 的 那 种 方式 ， 因 为 1ist 类 型 没有 实现 loaded 方法 所 需 的 
_ bool Fike MAHAM bool 函数 不 需要 bool _ 方法 ， 因 为 它 还 可 以 使 用 1len _ 方 


法 。 参 见 Python 文档 中 “Built-in Types” 一 章 中 的 “4.1. Truth Value Testing” ° 


O 如 果 是 Python 3.3 或 之 前 的 版 本 ， 不 能 把 ,register 当 作 类 装饰 右 使 
用 ， 必 须 使 用 标准 的 调用 句法 。 


注册 之 后 ， 可 以 使 用 issubclass 和 isinstance 函数 判断 TomboList 
是 不 是 Tombola 的 子 类 : 


>>> from tombola import Tombola 
>>> from tombolist import TomboList 
>>> issubclass(TomboList, Tombola) 
True 


>>> t = TomboList(range(100) ) 
>>> isinstance(t, Tombola) 
True 


然而 ， 关 的 继承 关系 在 一 个 特殊 的 类 属性 中 指定 mro。 ， 即 方法 解 
析 顺 序 (Method Resolution Order) 。 这 个 属性 的 作用 很 简单 ， 按 顺序 列 出 类 
及 其 超 类 ，Python 会 按照 这 个 顺序 搜索 方法 。 立 查看 TomboList 类 的 
mro_ 属性， 你 会 发 现 它 只 列 出 了 “真实 的 ” 超 类 ， 即 list 和 object: 


17122 节 会 专门 讲解 “mro__ 类 属性 ， 现 在 知道 这 个 简单 的 解释 就 行 了 。 


>>> TomboList.__ mro 


(<class 'tombolist.TomboList'>, <class 'list'>, <class 'object'>) 


Tombolist. mro 中 没有 Tombola， 因 此 Tombolist 没有 从 
Tombola 中 继承 任何 方法 。 


我 编写 了 几 个 类 ， 实 现 了 相同 的 接口 ， 现 在 我 需要 一 种 编写 doctest 的 方式 来 
泗 盖 不 同 的 实现 。 下 一 节 说 明 如 何 利 用 常规 类 和 抽象 基 类 的 API 编写 


doctest ° 


11.8 ” Tombola 子 类 的 测试 方法 


我 编写 的 Tombola 示例 测试 脚本 用 到 两 个 类 属性 ， 用 它们 内 省 类 的 继承 关 
Bo 


__subclasses_ () 
这 个 方法 返回 类 的 直接 子 类 列表 ， 不 含 虚 拟 子 类 。 
_abc_registry 


只 有 抽象 基 类 有 这 个 数据 属性 ， 其 值 是 一 个 weakSet 对 象 ， 即 抽象 类 
注册 的 虚拟 子 类 的 弱 引 用 。 


为 了 测试 Tombola 的 所 有 子 类 ， 我 编写 的 脚本 迭代 
Tombola.__subclasses__() 和 Tombola._abc_registry 得 到 的 列 
表 ， 然 后 把 各 个 类 赋值 给 在 doctest 中 使 用 的 ConcreteTombola 。 


这 个 测试 脚本 成 功 运行 时 输出 的 结 采 如 下 : 


$ python3 tombola_runner.py 

BingoCage 24 tests, 0 failed - OK 
LotteryBlower 24 tests, 0 failed - OK 
TumblingDrum 24 tests, 0 failed - OK 


TomboList 24 tests, 0 failed - OK 


测试 脚本 的 代码 在 示例 11-15 中 ，doctest 在 示例 11-16 中。 


示例 11-15 tombola_runnerpy: Tombola 子 类 的 测试 运行 程序 


import doctest 
from tombola import Tombola 


# 要 测试 的 模块 
import bingo, lotto, tombolist, drum @ 


TEST_FILE = 'tombola_tests.rst' 
TEST_MSG = '{0:16} {1.attempted:2} tests, {1.failed:2} failed - {2}' 


def main(argv): 
verbose = '-v' in argv 
real_subclasses = Tombola.__subclasses_() @ 
virtual_subclasses = list(Tombola._abc_registry) © 


for cls in real_subclasses + virtual_subclasses: ©@ 
test(cls, verbose) 


def test(cls, verbose=False): 


res = doctest.testfile( 

TEST_FILE, 

globs={'ConcreteTombola': cls}, © 

verbose=verbose, 

optionflags=doctest .REPORT_ONLY_FIRST_FAILURE) 
tag = 'FAIL' if res.failed else 'OK' 
print(TEST_MSG.format(cls.__name__, res, tag)) © 


if _name__ == '__main_': 
import sys 
main(sys.argv) 


@ 导入 包含 Tombola 真实 子 类 和 虚拟 子 类 的 模块 ， 用 于 测试 。 


@__subclasses _() 返回 的 列表 是 内 存 中 存在 的 直接 子 代 。 即 便 源码 中 
用 不 到 想 测试 的 模块 ， 也 要 将 其 导入 ， 因 为 要 把 那些 类 载 入 内 存 。 


卓 把 _abc_registry (WeakSet 对 象 ) 转换 成 列表 ， 这 样 方 能 与 
__subclasses__() 的 结果 拼接 起 来 。 


@ 和 迭代 找到 的 各 个 子 类 ， 分 别传 给 test K ° 


© 把 cls 参数 (要 测试 的 类 ) 绑 定 到 全 局 命名 空间 里 的 
ConcreteTombola 名 称 上 ， 供 doctest 使 用 。 

O 输出 测 斌 结果， 包含 类 的 名 称 、 党 试 运行 的 测试 数量 、 失 败 的 测试 数量 ， 
以 及 'OK' 或 'FAIL' 标记 。 


doctest 文件 如 示例 11-16 所 示 。 


示例 11-16 tombola_tests.rst Tombola 子 类 的 doctest 


Every concrete subclass of Tombola should pass these tests. 


Create and load instance from iterable:: 


>>> balls = list(range(3) ) 

>>> globe = ConcreteTombola(balls) 
>>> globe. loaded() 

True 

>>> globe.inspect() 

(0, 1, 2) 


Pick and collect balls:: 


>>> picks = [] 

>>> picks.append(globe.pick()) 
>>> picks.append(globe.pick()) 
>>> picks.append(globe.pick()) 


Check state and results:: 


>>> globe. loaded() 

False 

>>> sorted(picks) == balls 
True 


Reload:: 


>>> globe.load(balls) 

>>> globe.loaded() 

True 

>>> picks = [globe.pick() for i in balls] 


>>> globe.loaded() 
False 


Check that “LookupError ” (or a subclass) is the exception 
thrown when the device is empty:: 


>>> globe = ConcreteTombola([]) 
>>> try: 

. globe.pick() 

.. except LookupError as exc: 
... print('OK') 

OK 


Load and pick 100 balls to verify that they all come out:: 


>>> balls = list(range(100) ) 

>>> globe = ConcreteTombola(balls) 
>>> picks = [] 

>>> while globe.inspect(): 

... picks.append(globe.pick()) 

>>> len(picks) == len(balls) 

True 

>>> set(picks) == set(balls) 

True 


Check that the order has changed and is not simply reversed:: 


>>> picks != balls 

True 

>>> picks[::-1] != balls 
True 


Note: the previous 2 tests have a *very* small chance of failing 
even if the implementation is OK. The probability of the 100 
balls coming out, by chance, in the order they were inspect is 
1/100!, or approximately 1.07e-158. It's much easier to win the 
Lotto or to become a billionaire working as a programmer. 


THE END 


我 们 对 Tombola 抽象 基 类 的 分 析 到 此 结束 。 下 一 节 说 明 Python 如 何 使 用 抽 
象 基 类 的 register HA ° 


11.9 Python 使 用 register 的 方式 


示例 11-14 把 Tombola.register 当 作 类 装饰 器 使 用 。 在 Python 3.3 之 前 
的 版 本 中 不 能 这 样 使 用 register， 必 须 在 定义 类 之 后 像 普通 函数 那样 调 


用 ， 如 示例 11-14 中 最 后 那 行 注释 所 述 。 


虽然 现在 可 以 把 register 当 作 装饰 器 使 用 了 ， 但 更 常见 的 做 法 还 是 把 它 当 
作 函 数 使 用 ， 用 于 注册 其 他 地 方 定义 的 类 。 例 如 ,在 collections.abc 
模块 的 源码 中 ， 是 这 样 把 内 置 类 型 tuple、str、range 和 memoryview 
注册 为 Sequence 的 虚拟 子 类 的 : 


Sequence.register(tuple) 
Sequence.register(str) 
Sequence.register(range) 


Sequence.register(memoryview) 


其 他 几 个 内 置 类 型 在 _collections_abc.py 文件 中 注册 为 抽象 基 类 的 虚拟 子 

类 。 这 些 类 型 在 导入 模块 时 注册 ， 这 样 做 是 可 以 的 ， 因 为 必须 导入 才能 使 用 
抽象 基 类 : 能 访问 MutableMapping 才能 编写 isinstance(my_dict, 
MutableMapping) ° 


结束 本 章 之 前 ， 还 要 解释 一 下 Alex Martelli 在 “水 禽 和 抽象 基 类 ”中 施展 的 魔 


法 。 
11.10 RETHA A RET 
Alex 在 他 写 的 “水 禽 和 抽象 基 类 ”一 文中 指出 ， 即 便 不 注册 ， 抽 象 基 类 也 能 把 


一 个 类 识别 为 虚拟 子 类 。 下 面 是 他 举 的 例子 ， 我 添加 了 一 些 代码 ， 使 用 
issubclass 做 测试 ; 


>>> class Struggle: 
def _len_ (self): return 23 


>>> from collections import abc 


>>> isinstance(Struggle(), abc.Sized) 
True 

>>> issubclass(Struggle, abc.Sized) 
True 


经 issubclass 函数 确认 (isinstance 函数 也 会 得 出 相同 的 结论 ) ， 
Struggle Æ abc.Sized WF, iA abc. Sized 实现 了 一 个 特殊 
的 类 方法 ， 名 为 ”subclasshook “。 参 见 示 例 11-17。 


示例 11-17 Sized 类 的 源码 ， 摘 自 Lib/_collections_abc.py (Python 
3.4) 


class Sized(metaclass=ABCMeta): 


Slots = () 


@abstractmethod 
def _len_ (self): 
return 0 


@classmethod 
def __subclasshook__(cls, C): 
if cls is Sized: 
if any("__len__" in B.__dict__ for B in C._mro__): #@0 
return True #@ 
return NotImplemented # © 


@@ 对 C. mro_ (BlC RHR) 中 所 列 的 类 来 说 ， 如 果 类 的 __dict 
属性 中 有 名 为 __len__ 的 属性 ..…... 


@...... 返回 True， 表 明 C 是 Sized 的 虚拟 子 类 。 
© 和 否则， 返回 NotImplemented， 让 子 类 检查 。 


如 果 你 对 子 类 检查 的 细节 感 兴趣 ， 可 以 阅读 Lib/abc.py 文件 中 
ABCMeta. subclasscheck _ 方法 的 源码 。 提 醒 : 源码 中 有 很 多 if 语 
句 和 两 个 递归 调用 。 


__subclasshook__ 在昌 筷 类 型 中 添加 了 一 些 网 子 类 型 的 踪迹 。 我 们 可 以 
使 用 抽象 基 类 定义 正式 接口 ， 可 以 始终 使 用 isinstance 检查 ， 也 可 以 完 
全 使 用 不 相关 的 类 ， 只 要 实现 特定 的 方法 即 可 (或 者 做 些 事情 让 
__subclasshook__ 信服 ) 。 当 然 ， 只 有 提供 subclasshook_ ”方法 
的 抽象 基 类 才能 这 么 做 。 


在 自己 定义 的 抽象 基 类 中 要 不 要 实现 subclasshook _ DIEE? 可 能 不 
需要 。 我 在 Python 源码 中 只 见 到 Sized 这 一 个 抽象 基 类 实现 了 
__subclasshook__ 方法， 而 Sized 只 声明 了 一 个 特殊 方法 ， 因 此 只 用 
检查 这 么 一 个 特殊 方法 。 鉴 len ”方法 的 “特殊 性 ”， 我 们 基本 可 以 确 
定 它 能 做 到 该 做 的 事 。 但 是 对 其 他 特殊 方法 和 基本 的 抽象 基 类 来 说 ， 很 难 这 
AAE ° Aa, BARRES len 、 ”getitem 和 

_iter ,但 是 不 应 该 把 它们 视 作 Sequence 的 子 类 型 ， 因 为 不 能 使 用 整 
数 偏 移 值 获取 元 素 ， 也 不 能 保证 元 素 的 顺序 。 当 然 ，0rderedDict 除外 ， 
它 保 留 了 插入 元 素 的 顺序 ， 但 是 不 支持 通过 偏 移 获 取 元 素 。 


在 你 我 自己 编写 的 抽象 基 类 中 实现 subclasshook _ 方法， 可 靠 性 很 
低 。 我 可 不 相信 随便 一 个 实现 或 继承 了 load、pick、inspect 和 
loaded 的 类 (如 Spam) 的 行为 一 定 像 Tombola。 程 序 员 最 好 让 Spam 继 
承 Tombola， 至 少 也 要 注册 (Tombola.register(Spam)) ， 从 而 确保 
这 一 点 。 当 然 ， 自 己 实现 的 __subclasshook _ 方法 还 可 以 检查 方法 签名 
和 其 他 特性 ， 但 我 觉得 不 值得 这 么 做 。 


11.11 本 章 小 结 


本 章 首先 介绍 了 非 正式 接口 ( 称 为 协议 ) 的 高 度 动态 本 性 ， 然 后 讲解 了 抽象 
基 类 的 静态 接口 声明 ， 最 后 指出 了 抽象 基 类 的 动态 特性 : 虚拟 子 类 ， 以 及 使 
用 subclasshook_ 方法 动态 识别 子 类 。 


我 们 首先 回顾 了 Python 社区 对 接口 的 惯常 理解 。 在 Python 的 历史 中 常常 出 
现 接 口 的 身影 ， 但 它 是 非 正 式 的 ， 类 似 于 Smalltalk 的 协议 ， fig Ee Es 全 官方 文档 
F, “foo 协议 ”foo 接口 "和 “foo 类 对 象 * 这 三 种 措辞 是 同一 个 意思 。 协 议 风 
格 的 接口 与 继承 完全 没有 关系 ， SBIR MPRA OSG OE 在 
榴 子 类 型 中 ， 接 口 就 是 这 样 的 。 


通过 示例 11-3， 我 们 发 现 Python 对 序列 协议 的 支持 十 分 深入 。 如 果 一 个 类 
gee ”getitem_ 方法， 此 外 什么 也 没 做 ， 那 么 Python SEI 

而 且 in 运算 符 也 随 之 可 以 使 用 。 随 后 ， 我 们 继续 编写 第 1 章 中 的 
AN WA, EIRATA E, MEE hE o E a 
的 是 猴子 补丁 ， 突 出 了 协议 的 动态 本 性 。 我 们 再 一 次 见识 到 ， 部 分 实现 协议 
也 是 有 用 的 : 添加 可 变 序列 协议 中 的 __setitem _ 方法 之 后 ， 立 即 就 能 使 
用 标准 库 中 的 random.shuffle 函数 。 了 解 现 有 的 协议 能 让 我 们 充分 利用 
Python 丰富 的 标准 库 


接 下 来 ，Alex Martelli 7124 TARRE AARE, 18 以 此 描述 一 种 新 的 
Python 编程 风格 。 借 助 “ 白 鹅 类 型 "， 可 以 使 用 抽象 基 类 明确 声明 接口 ， 而 且 
类 可 以 子 类 化 抽象 基 类 或 使 用 抽象 基 类 注册 (无 需 在 继承 关系 中 确立 静态 的 
强 链 接 ) ， 宣 称 它 实现 了 某 个 接口 。 


18“ 白 笋 类 型 ”这 种 说 法 是 Alex 发 明 的 ， 这 是 它 第 一 次 出 现在 书 中 。 
FrenchDeck2 示例 清楚 地 展示 了 显 式 继承 抽象 基 类 的 优 铅 点 。 继 和 承 
abc .MutableSequence F, Vm insert 和 _ delitem_ Wik, 


而 我 们 并 不 需要 这 两 个 方法 。 不 过 ， 即 便 是 Python 新 手 ， 只 要 查看 
FrenchDeck2 类 的 源码 ， 束 能 看 出 它 是 可 变 序 列 。 此 外 ， 我 们 还 得 到 一 个 


额外 好 处 ， 从 abc.MutableSequence 中 继承 了 11 个 方法 (其 中 五 个 间 
接 继承 自 abc .Sequence) , 而且 拿 来 即 用 。 


全 面 介绍 图 11-3 中 collections.abc 模块 里 的 各 个 抽象 基 类 后 ， 我 们 自 
己 动 手 从 头 开始 编写 了 一 个 抽象 基 类 。 J com (Python Module of the 
Week) 网 站 的 创建 者 Doug Hellmann 道 出 了 这 么 做 的 目的 : 


定义 抽象 基 类 之 后 ， 各 个 子 类 可 以 实现 通用 的 API ° ALA TARE 
用 程序 的 运作 方式 ， 却 又 想 使 用 插件 扩展 ， 束 可 以 利用 这 一 功能 .……… 


19pyMOTW 网 站 介绍 abc 模块 的 页 面 ， “Why use Abstract Base Classes?” 一 节 。 


定义 好 Tombola 抽象 基 类 之 后 ， 我 们 创建 了 三 个 具体 子 类 ， 两 个 继承 
Tombola， 男 一 个 注册 为 虚拟 子 类 一 一 它们 都 能 通过 同一 个 测试 组 件 。 


本 章 结束 之 前 ， 我 们 提 到 了 几 个 内 置 类 型 是 如 何 注 册 到 collections.abc 
模块 中 的 抽象 基 类 的 。 这 样 ， 虽 然 memoryview 没有 继承 
abc.Sequence, isinstance(memoryview, abc. Sequence) 的 结 
果 也 是 True。 最 后 ， 我 们 探究 了 __subclasshook ”魔法 。 这 个 方法 的 
作用 是 让 抽象 基 类 识别 没有 注册 为 子 类 的 类 ， 你 可 以 根据 需要 做 简单 的 或 者 
复杂 的 测试 未 准 法 只 是 检查 方法 名 称 。 


最 后 的 最 后 ， 我 要 重申 Alex Martelli 的 警告 ， 不 要 自己 定义 抽象 基 类 ， 除 非 
你 要 构建 介 许 用 户 扩 展 的 框 染 一 一 然而 大 多 数 情况 下 并 非 如 此 。 日 常 使 用 

中 ， 我 们 与 抽象 基 类 的 联系 应 该 是 创建 现 有 抽象 基 类 的 子 类 ， 或 者 使 用 现 有 
的 抽象 基 类 注册 。 此 外 ， 我 们 可 能 远 全 在 isinstance 检查 中 使 用 抽象 基 
类 ， 但 这 上 比 继承 或 注册 更 少见 。 需 要 自己 从 头 编写 新 抽象 基 类 的 情况 少 之 又 


少 。 


我 使 用 Python 15 年 了 ， 除 了 教学 示例 以 外 ， 我 只 在 Pingo 项 目 中 编写 过 
个 抽象 类 ， 即 Board 

(https://github.com/garoa/pingo/blob/master/pingo/board.py) ” 类。 支持 单 板 机 
和 控制 絮 的 驱动 是 Board 的 子 类 ， 共 用 相同 的 接口 。 惑 算 我 把 
pingo.Board 打造 成 抽象 类 ， 它 也 并 没有 继承 abc .ABC。”3 我 本 打算 把 
Board 定义 为 抽象 基 类 ， 但 是 Pingo 项 目 有 更 重要 的 事情 要 做 。 


Python 标准 库 也 有 这 样 做 的 ， 有 些 类 虽然 是 抽象 的 ， 但 是 并 没有 显 式 地 继承 abc .ABC。 


J 


本 章 适 合 使 用 下 面 这 段 话 结尾 : 


尽管 抽象 基 类 使 得 类 型 检查 变 得 更 容易 了 ， 但 不 应 该 在 程序 中 过 度 使 用 
它 。Python 的 核心 在 于 它 是 一 门 动态 语言 ， 它 带 来 了 极 大 的 灵活 性 。 如 
果 处 处 都 强制 实行 类 型 约束 ， 那 么 会 使 代码 变 得 更 加 复杂 ， 而 本 不 应 该 
如 此 。 我 们 应 该 拥抱 Python 的 灵活 性 。 纪 


David Beazley 和 Brian Jones 
《Python Cookbook (#8 3 fix) 中 文 版 》 
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或 者 ， 像 本 书 技术 审 校 Leonardo Rochael 所 写 的 : “如 果 觉 得 自己 想 创 建新 的 
抽象 基 类 ， 先 试 着 通过 常规 的 鸭子 类 型 来 解决 问题 。” 


11.12 ”延伸 阅读 


Beazley 与 Jones 的 《Python Cookbook (第 3 版 ， 中 文 版 ”有 一 节 (8.12) Œ 
义 了 一 个 抽象 基 类 。 这 本 书 在 Python 3.4 之 前 撰写 ， 因 此 他 们 没有 使 用 现在 
推荐 的 句法 ， 即 通过 继承 abc .ABC 声明 抽象 基 类 ， 而 是 使 用 metaclass 
关键 字 。 除 了 这 个 小 细节 之 外 ， 那 个 秘笈 很 好 地 涵盖 了 抽象 基 类 的 主要 功 
能 ， 而 且 最 后 还 给 出 了 宝贵 的 意见 ， 即 前 一 市 末尾 引用 的 那 段 话 。 


Doug Hellmann 写 的 《Python 标准 库 》 一 书 中 有 一 章 是 关于 abc 模块 的 。 
Doug 创建 的 PyMOTW (Python Module of the Week) 网 站 中 也 有 那 一 章 。 这 
本 书 和 PyMOTW 网 站 都 针对 Python 2， 因 此 如 果 你 使 用 Python 3 的 话 ， 必 
须 做 些 调 整 。? 记 住 ， 在 Python 3.4 中 ， 唯 一 推荐 使 用 的 抽象 基 类 方法 装饰 
句 是 @abstractmethod， 其 他 装饰 器 已 经 废弃 了 了。 本章 小 结 中 引用 的 关于 
抽象 基 类 的 男 一 句 话 出 自 Doug 的 网 站 和 这 本 书 。 


2PyMOTW 网 站 现在 已 经 是 面向 Python 3 了。 编者 注 


使 用 抽象 基 类 时 ， 经 常会 遇 到 多 重 继承 ， 而 且 是 不 可 避免 的 ， 因 为 基本 的 集 
合 抽象 基 类 (Sequence、Mapping M set) 都 扩展 多 个 抽象 基 类 (如 图 
11-3 所 示 ) 。 第 12 章 接着 讨论 这 个 话题 ， 那 是 重要 的 一 章 。 


“PEP 3119—Introducing Abstract Base Classes” 讲 解 了 抽象 基 类 的 基本 原 
理 ，“PEP 3141—A Type Hierarchy for Numbers” 提 出 了 numbers 模块 中 的 抽 


Bill Venners 对 Guido van Rossum 的 采访 “Contracts in Python: A Conversation 
with Guido van Rossum, Part TV” 讨 论 了 动态 类 型 的 优 缺 点 。 


zope.interface 包 提 供 了 一 种 声明 接口 的 方式 : 检查 对 象 是 否 实现 了 接 
口 ， 注 册 提 供 方 ， 然 后 查询 指定 接口 的 提供 方 。 一 开始 ， 这 个 包 是 Zope 3 核 
心 的 一 部 分 ， 不 过 它 可 以 在 Zope 外 部 使 用 ， 而 且 已 经 有 人 这 么 做 了 。 这 个 
包 为 大 型 Python 项 目 (如 Twisted、Pyramid 和 Plone) 的 组 件 式 架构 提供 了 
灵活 的 基础 。Lennart Regebro 写 的 “A Python Component Architecture” 一 文 对 
zope.interface 包 做 了 介绍 ，Baiju M 还 写 了 一 本 相关 的 书 一 A 
Comprehensive Guide to Zope Component Architecture ° 


类 型 提示 


2014 年 ，Python 世界 最 大 的 新 闻 应 该 是 Guido van Rossum 同意 实现 可 
选 的 静态 类 型 检查 ， 这 与 检查 程序 Mypy 的 做 法 类 似 ， 即 使 用 函数 注解 
实现 。 这 一 消息 出 自 8 月 15 日 发 表 在 Python-ideas 邮件 列表 中 的 一 个 话 
题 ， 题 为 “Optional static typing 一 the crossroads” ° 一 个 月 后 ，“PEP 484 
一 Type Hints” 草 案 发 布 了 ， 发 起 人 是 Guido ° 


这 个 功能 的 目的 是 让 程序 员 在 函数 定义 中 使 用 注解 声明 参数 和 返回 值 的 

类 型 ， 但 这 是 可 选 的 。 关 键 在 于 “可 选 ”* 二 字 。 仅 当 你 想得到 注解 的 好 处 

而 且 可 以 在 一 些 函 数 中 添加 ， 在 另 一 些 函 数 
NASI ° 


从 表面 上 看 ， 这 与 Microsoft 对 TypeScript (JavaScript 的 超 集 ) 采取 的 
方式 类 似 ， 不 过 TypeScript 做 得 更 进一步 : TypeScript 添加 了 新 的 语言 
结构 《如 模块 、 类 、 显 式 接口 ， 等 等 ) ， 人 允许 声明 变量 类 型 ， 而 且 最 终 
编译 成 常规 的 JavaScript。 目 前 来 看 ，Python 的 可 选 静态 类 型 没 这 么 大 
的 雄心 。 


为 了 理解 这 个 提案 的 动机 ， 不 能 忽略 Guido 在 2014 年 8 月 15 日 发 送 的 
那 封 重要 邮件 中 的 这 段 话 : 


我 还 得 做 个 假设 : 这 个 功能 主要 供 lint 程序 、IDE 和 文档 生成 工具 
使 用 。 这些 工具 有 个 共同 点 : 即使 类 型 检查 失败 了 ， 程 序 仍 能 运 
e 此 外 ， 程 序 中 添加 的 类 型 不 能 降低 性 能 (也 不 能 提升 性 能 

:=)) 3 

因此 ， 这 一 举动 并 不 像 乍 一 看 那么 激进 。“PEP 484—Type Hints” 提 到 


‘J “PEP 482 一 Literature Overview for Type Hints”， 后 者 概述 了 第 三 方 
Python 工具 和 其 他 语言 实现 类 型 提示 的 方式 。 


不 管 激进 不 激进 ， 类 型 提示 都 将 到 来 : XEF PEP 484 的 typing 模块 好 
像 已 经 纳入 Python 3.5 ° 73 根据 这 个 提案 的 表述 和 实现 方式 ， 可 以 肯定 
的 是 ， 现 有 代码 不 会 因为 缺少 类 型 提示 (或 相关 的 附加 物 ) 而 无 法 运 
行 。 

最 后 ，PEP 484 明确 指出 : 


还 要 强调 一 点 ，Python 依旧 是 一 门 动态 类 型 语言 ， 作 者 从 未 打算 强 
制 要 求 使 用 类 型 提示 ， 甚 至 不 会 把 它 变 成 约定 。 


Python 是 弱 类 型 语言 吗 
由 于 缺少 统一 的 术语 ， 讨 论语 言 类 型 方面 的 话题 时 有 时 会 让 人 不 明 其 
mo BLA (例如 扩展 阅读 中 提 到 的 Bill Venners 对 Guido 的 访谈 ) 说 
Python 征 弱 类 型 语言 ， 把 Python 与 JavaScript 和 PHP 归 为 一 类 。 讨 论 
类 型 时 ， 最 好 考虑 两 条 不 同 的 坐标 线 。 
强 类 型 和 弱 类 型 

如 采 一 门 语言 很 少 隐 式 转换 类 型 ， 说 明 它 是 强 类 型 语言 ; 如 采 经 党 
这 么 做 ， 说 明 它 是 弱 类 型 语言 。Java、C++ 和 Python 是 强 类 型 语言 。 
PHP、JavaScript 和 Perl 是 弱 类 型 语言 。 
静态 类 型 和 动态 类 型 

在 编译 时 检查 类 型 的 语言 是 静态 类 型 语言 ， 在 运行 时 检查 类 型 的 语 
言 是 动态 类 型 语言 。 静态 类 型 需要 声明 类 型 \ 有 些 现 代 语 言 使 用 类 型 推 
导 避 免 部 分 类 型 声明 ) 。 Fortran 和 Lisp 是 最 早 的 两 1] 语言 ， 现 在 仍 在 
使 用 ， 它 们 分 别 是 静态 类 型 语言 和 动态 类 型 语言 。 
强 类 型 能 及 早 发 现 缺 陶 。 


下 面 几 例 体现 了 弱 类 型 的 不 足 :“ 


// 这 些 是 JavaScript 代 码 (Node.js v9.10.33 中 做 了 测试 ) 


== '0 // false 


© == ''! // true 
0 == '0' // true 
'<0 // false 


' < '0' // true 


因为 Python 不 会 自动 在 字符 串 和 数字 之 间 强 制 转 换 ， 所 以 在 Python 3 
H, Ey == 表达 式 的 结果 都 是 False (保留 了 == 的 意思 ) ,而 < 比 
交会 抛 出 TypeError ° 


静态 类 型 使 得 一 些 工 具 (编译 器 和 IDE) 便于 分 析 代 码 、 找 出 错误 和 提 
供 其 他 服务 《优化 、 重 构 ， 等 等 ) 。 动 态 类 型 便于 代码 重用 ， 代 码 行 数 
更 少 ， 而 且 能 让 接口 目 然 成 为 协议 而 不 提早 实行 。 


综 上 ，Python 是 动态 强 类 型 语言 。“PEP 484—Type Hints” 无 法 改变 这 一 
点 ， 但 是 API 作者 能 够 添加 可 选 的 类 型 注解 ， 执 行 某 种 静态 类 型 检查 。 


猴子 补丁 


猴子 补丁 的 名 声 不 太 好 。 如 来 滥 用 ， 会 导致 系统 难以 理解 和 维护 。 补 丁 
通 各 与 目标 紧密 硝 合 ， 因 此 很 脆弱 。 另 一 个 问题 是 ， 打 了 猴子 补丁 的 两 
个 库 可 能 相互 牵 绊 ， 因 为 第 二 个 库 可 能 撤销 了 第 一 个 库 的 补丁 。 


MIRT] wA EIEH, Maa IS TES ELM © TEAC a 
设计 模式 通过 实现 全 新 的 类 解决 这 种 问题 。 


为 Python 打 猴 子 补丁 不 难 ， 但 是 有 些 局 限 。 与 Ruby 和 JavaScript 不 

fA], Python 不 允许 为 内 置 类 型 打 猴 子 补丁 。 其 实 我 觉得 这 是 优点 ， 因 为 
这 样 可 以 确保 str 对 象 的 方法 始终 是 那些 。 这 一 局 限 能 减少 外 部 库 打 的 
补丁 有 冲突 的 概率 。 


Java ` Go 和 Ruby 的 接口 


从 C++ 2.0 (1989 EAA) 起 ， 这 门 语言 开始 使 用 抽象 类 指定 接口 。 
Java 的 设计 者 选择 不 支持 类 的 多 重 继承 ， 这 排除 了 使 用 抽象 类 作为 接口 
规范 的 可 能 性 ， 因 为 一 个 类 通常 会 实现 多 个 接口 。 但 是 ，Java 的 设计 者 
添加 了 interface 这 个 语言 结构 ， 而 且 人 允许 一 个 类 实现 多 个 接口 一 一 
这 是 一 种 多 重 继承 。 以 更 为 明确 的 方式 定义 接口 是 Java 的 一 大 贡献 。 在 
Java 8 中 ， 接 口 可 以 提供 方法 实现 ， 这 叫 默认 方法 。 有 了 这 个 功能 ， 
Java 的 接口 与 C++ 和 Python 中 的 抽象 类 更 像 了 。 


Go 语言 采用 的 方式 完全 不 同 。 首 先 ，Go 不 支持 继承 。 我 们 可 以 定义 接 
口 ， 但 是 无 需 〈 其 实 也 不 能 ) 明确 地 指出 某 个 类 型 实现 了 某 个 接口 。 编 
译 器 能 自动 判断 。 因 此 ， 考 虑 到 接口 在 编译 时 检查 ， 但 是 真正 重要 的 是 
实现 了 什么 类 型 ，Go 语言 可 以 说 是 具有 “静态 鸭子 类 型 ”。 


与 Python 相 比 ， 对 Go 来 说 就 好 像 每 个 抽象 基 类 都 实现 了 
__subclasshook__ 方法 ， 它 会 检查 函数 的 名 称 和 签名 ， 而 我 们 自己 


从 不 需要 继承 或 注册 抽象 基 类 。 如 果 想 让 Python 更 像 Go， 可 以 对 所 有 
函数 参数 做 类 型 检查 。Python 提供 了 部 分 基础 设施 (参见 5.9 77) 。 
Guido 说 过 ， 他 不 介意 B EAER BAA ee 至 少 在 辅助 工具 中 可 以 这 
么 做 。 详 情 参阅 第 5 章 的 < 杂 杂谈 ” 


Ruby 程序 员 是 鸭子 类 型 的 坚定 拥护 者 ， 而 且 Ruby 没有 声明 接口 或 抽象 
类 的 正式 方式 ， 只 能 像 Python 2.6 之 前 的 版 本 那样 做 ， 即 在 方法 的 定义 
体 中 抛 出 NotImplementedError， 以 此 表明 方法 是 抽象 的 ， 用 户 必 
须 在 子 类 中 实现 。 


不 过 ，2014 年 9 A, Ruby 之 父 松本 行 弘 在 日 本 举办 的 Ruby Kaigi (最 
重要 的 Ruby 大 会 之 一 ， 每 年 举办 ) 中 做 了 一 场 主题 演讲 ， 他 透露 说 ， 
Ruby 未 来 可 能 会 文 持 静 态 类 型 。 目 前 我 还 没 看 到 相关 报道 ， 但 是 根据 
Godfrey Chan 的 博客 文章 “Ruby Kaigi 2014: Day 2”， 松 本 行 弘 关注 的 似 
乎 是 函数 注解 。 他 甚至 还 提 到 了 Python 的 函数 注解 。 


在 没有 抽象 基 类 向 类 型 系统 添加 结构 ， 以 及 不 起 失灵 活性 的 情况 下 ， 我 
不 知道 函数 注解 有 什么 用 。 因 此 ，Ruby 未 来 可 能 还 会 支持 正式 接口 。 


我 相信 ，Python 的 抽象 基 类 在 和 register 丽 数 和 __subclasshook _ 
gee 能 把 正式 接口 带 入 这 门 语言 ， 而 且 不 失去 动态 类 型 的 优 


或 许 ， 秘 正在 赶 超 观 子 。 
接口 中 的 隐喻 和 习惯 用 法 


隐喻 能 打破 壁垒 ， 让 人 更 易于 理解 。 使 用 “ 栈 " 和 “队列 ”描述 基本 的 数据 
类 型 就 有 这 样 的 功效 ， 这 两 个 词 清楚 地 道 出 了 添加 或 删除 元 素 的 方式 。 
男 一 方面 ，Alan Cooper 在 《交互 设计 精髓 (第 4 版 ) 》 中 写 道 : 


严格 奉行 隐喻 设计 毫 无 必要 ， 却 把 界面 死 死 地 与 物理 世界 的 运行 机 
制 捆绑 在 一 起 。 


他 说 的 是 用 户 界 面 ， 但 对 API 同样 适用 。 不 过 Cooper 同意 ， 当 “真正 合 
适 的 ”隐喻 “正中 下 怀 * 时 ， 可 以 使 用 隐喻 (他 用 的 词 是 “正中 下 怀 *， 因 大 
tls IBAA) 。 我 觉得 本 章 用 宾 果 机 作 比 喻 是 合适 的 ， 我 相 


我 读 过 不 少 UI 设计 方面 的 书 ，《 交 互 设 计 精 介 》 是 最 好 的 。 我 从 
Cooper 的 书 中 学 到 的 最 宝贵 的 知识 是 ， 不 把 隐喻 当 作 设计 范式 ， 而 代 之 
以 “习惯 用 法 的 界面 ”。 前 面 说 过 ，Cooper 说 的 不 是 API， 但 是 我 越 深入 


思考 他 的 观点 ， 越 觉得 可 以 将 之 运用 到 Python 中 。Python 语言 的 基本 
协议 就 是 Cooper 所 说 的 “习惯 用 法 ”。 知道“ 序列 ”是 什么 之 后 ， 可 以 把 这 
些 知识 应 用 到 不 同 的 场合 。 这 正 是 本 书 的 主要 目的 : 着 重 讲解 这 门 语 言 
的 基本 惯用 法 ， 让 你 的 代码 简洁 、 高 效 且 可 读 ， 把 你 打造 成 熟练 的 
Python 程序 员 ° 


3 现在 ，typing 模块 已 经 纳入 Python 3.5。 编者 注 


24 改 编 自 JavaScript: The Good Parts (Douglas Crockford 著 ) 附录 B 第 109 页 给 出 的 示例 。 


第 12 章 继承 的 优 缺点 


(我 人 D 推出 继承 的 初衷 是 让 新 手 顺利 使 用 只 有 专家 才能 设计 出 来 的 杠 


BA o 


— Alan Kay 
“The Early History of Smalltalk” 


1Alan Kay,“The Early History of Smalltalk,”in SIGPLAN Not. 28, 3 (March 1993), 69-95. 网 上 也 有 这 篇 
章 。 感 谢 我 的 朋友 Christiano Anderson 在 我 写 这 一 章 时 告诉 我 这 篇 参考 文献 。 


本 章 探讨 继承 和 子 类 化 ， 重 点 是 说 明 对 Python 而 言 万 为 重要 的 两 个 细 克 : 
。 子 类 化 内 置 类 型 的 缺点 
。 多 重 继承 和 方法 解析 顺序 


很 多 人 觉得 多 重 继承 得 不 偿 失 。 不 文 持 多 重 继 承 的 Java 显然 没有 什么 损失 ， 
C++ 对 多 重 继承 的 滥用 伤害 了 很 多 人 ， 这 可 能 还 坚定 了 使 用 Java 的 决心 。 


SRM, Java 的 巨大 成 功 和 广泛 影响 ， 也 导致 很 多 刚 接触 Python 的 程序 员 没 
怎么 见 过 真实 的 代码 使 用 多 重 继承 。 鉴 于 此 ， 我 们 将 不 再 举 简单 的 示例 ， 而 
是 通过 两 个 重要 的 Python 项 目 探 讨 多 重 继承 ， 这 两 个 项 目 是 GUI 工具 包 
Tkinter 和 Web 框架 Django。 


我 们 将 首先 分 析 子 类 化 内 置 类 型 的 问题 。 本 章 余 下 的 内 容 则 探讨 多 重 继承 ， 
我 们 将 分 析 案 例 ， 并 讨论 构建 类 层次 结构 方面 好 的 做 法 和 不 好 的 做 法 。 


12.1 子 类 化 内 置 类 型 很 廊 烦 


在 Python 2.2 之 前 ， 内 置 类 型 (W list 或 dict) 不 能 子 类 化 。 在 Python 
2.2 之 后 ， 内 置 类 型 可 以 子 类 化 了 ， 但 是 有 个 重要 的 注意 事项 : 内 置 类 型 
(使 用 C 语言 编写 ) 不 会 调用 用 户 定 义 的 类 覆盖 的 特殊 方法 。 


PyPy 的 文档 使 用 简明 扼要 的 语言 描述 了 这 个 问题 ， 风 于 “Differences between 
PyPy and CPython” 中 “Subclasses of built-in types” — 7 : 


AT ARRAN TRE mA ATIZS Robes AAA, CPython 没有 制定 官 
THAN o EAL, ABRAM TIERS PRE AAI ° PIU, 


dict 的 子 类 覆盖 的 __getitem__() 方法 不 会 被 内 置 类 型 的 get( ) 
方法 调用 。 


示例 12-1 说 明了 这 个 问题 。 


示例 12-1 内 置 类 型 dict #) __init__ 和 update_ 方法 会 忽略 
我 们 覆盖 的 setitem_ 方法 


>>> Class DoppelDict(dict): 
TE def _ setitem_ (self, key, value): 
super(). setitem (key, [value] * 2) #0 


>>> dd = DoppelDict(one=1) # @ 


': 1, 'two': [2, 2]} 


@ DoppelDict. setitem _ 方法 会 重复 存 入 的 值 (只 是 为 了 提供 易于 
观察 的 效果 ) 。 它 把 职责 委托 给 超 类 。 


Ə 继承 自 dict 的 ”init 方法 显然 忽略 了 我 们 履 盖 的 setitem _ 
方法 : 'one' 的 值 没 有 重复 。 


© [] 运算 符 会 调用 我 们 履 新 的 __setitem__ 方法 ， 按 预期 那样 工 
作 : 'two' 对 应 的 是 两 个 重复 的 值 ， 即 [2，2]。 


O 继承 自 dict 的 update 方法 也 不 使 用 我 们 覆盖 的 setitem_F 
法 : 'three' 的 值 没有 重复 。 


原生 类 型 的 这 种 行为 违背 了 面向 对 象 编程 的 一 个 基本 原则 :始终 应 该 从 实例 
(self) 所 属 的 类 开始 搜索 方法 ， 即 使 在 超 类 实现 的 类 中 调用 也 是 如 此 。 

在 这 种 精 糕 的 局 面 中 ，_” missing ”方法 (参见 3.4.2 7) 却 能 按 预期 方 

式 工 作 ， 不 过 这 只 是 特例 。 


不 只 实例 内 部 的 调用 有 这 个 问题 (self.get() 不 调用 
self.__getitem_()) ， 内 置 类 型 的 方法 调用 的 其 他 类 的 方法 ， 如 果 被 
了 ， 也 不 会 被 调用 。 示 例 12-2 是 一 个 例子 ， 改 编 自 PyPy 文档 中 的 示 
列 。 


示例 12-2 dict.update 方法 会 忽略 AnswerDict.__getitem_ 
方法 


class AnswerDict(dict): 
def _ getitem (self, key): #@ 
return 42 


ad = AnswerDict(a='foo') #@ 
ad['a'] #® 


d = {} 
d.update(ad) # @ 
d['a'] #0 


: 'foo'} 


@ KERA AH, AnswerDict.__getitem__ 方法 始终 返回 42 ° 


@ ad Æ AnswerDict 的 实例 ， 以 ('a'，'foo' ) 键 值 对 初始 化 。 
© ad['a'] 返回 42， 这 与 预期 相符 。 
O d 是 dict 的 实例 ， 使 用 ad 中 的 值 更 新 d 。 


© dict.update 方法 忽略 了 AnswerDict. getitem _ 方法。 


Be 直接 子 类 化 内 置 类 型 (如 dict、1List 或 str) 容易 出 错 ， 因 
为 内 置 类 型 的 方法 通常 会 忽略 用 户 履 盖 的 方法 。 不 要 子 类 化 内 置 类 型 ， 
用 户 目 己 定义 的 类 应 该 继承 collections 模块 中 的 类 ， 例 如 
UserDict、UserList 和 UserString， 这 些 类 做 了 特殊 设计 ， 因 此 
易于 扩展 。 


如 果 不 子 类 化 dict， 而 是 子 类 化 collections,UserDict， 示 例 12-1 和 
示例 12-2 中 暴露 的 问题 便 迎 刃 而 解 了 。 人 参见 示例 12-3。 


示例 12-3 DoppelDict2 和 AnswerDict2 能 像 预期 那样 使 用 ， 因 为 
它们 扩展 的 是 UserDict， 而 不 是 dict 


>>> import collections 
>>> 


>>> class DoppelDict2(collections.UserDict): 
def _ setitem (self, key, value): 
super().__setitem__(key, [value] * 2) 


>>> dd = DoppelDict2(one=1) 
>>> dd 

{'one': [1, 1]} 

>>> dd['two'] = 2 

>>> dd 

{'two': [2, 2], 'one': [1, 1]} 
>>> dd.update(three=3) 


{'two': [2, 2], 'three': [3, 3], 'one': [1, 1]} 
>>> class AnswerDict2(collections.UserDict): 
def _ getitem (self, key): 


return 42 


>>> ad = AnswerDict2(a='foo') 
>>> ad['a'] 


>>> d = {} 
>>> d.update(ad) 
>>> d['a'] 


为 了 衡量 子 类 化 内 置 类 型 所 需 的 额外 工作 量 ， 我 做 了 个 实验 ， 重 写 了 示例 3- 
8 中 的 StrKeyDict 类 。 原 始 版 继承 自 collections.UserDict, 而且 
只 实现 了 三 个 方法 : _ missing 、 contains #ll__setitem__» 
在 实验 中 ，StrKeyDict 直接 子 类 化 dict， 而 且 也 实现 了 那 三 个 方法 ， 不 
过 根据 存储 数据 的 方式 稍微 做 了 调整 。 可 是 ， 为 了 让 实验 版 通过 原始 版 的 测 
试 组 件 ， 还 要 实现 init 、get M update 方法 ， 因 为 继承 自 dict 的 
版 本 拒绝 与 覆盖 的 _missing `_ contains 和 ”setitem 方 
法 合作 。 示 例 3-8 中 那个 UserDict FRE 16 行 代 码 ， 而 实验 的 dict F 
类 有 37 行 代码 。? 


2h 
综 上 ， 本 市 所 述 的 问题 只 发 生 在 C 语言 实现 的 内 置 类 型 内 部 的 方法 委托 上 ， 


而 且 只 影响 直接 继承 内 置 类 型 的 用 户 自 定义 类 。 如 果子 类 化 使 用 Python 编写 
的 类 ， 如 UserDict 或 MutableMapping， 就 不 会 受 此 影响 。3 


oOo 


果 好 奇 ， 实 验 版 在 本 书 代码 仓库 里 的 strkeydict_ dictsub.py 文件 


3 顺便 说 一 下 ， 在 这 方面 ，PyPy 的 行为 比 CPython“ 正 确 "， 不 过 会 导致 微小 的 差异 。 详 情 参 
见 “Differences between PyPy and CPython”。 


与 继承 ， 尤 其 是 多 重 继承 有 关 的 另 一 个 问题 是 : 如 采 同 级 别 的 超 类 定义 了 同 
名 属性 ，Python 如 何 确定 使 用 哪个 ? FTE ° 


12.2 ”多 重 继承 和 方法 解析 顺序 


任何 实现 多 重 继承 的 语言 都 要 处 理 潜在 的 命名 冲突 ， 这 种 冲突 由 不 相关 的 祖 
oe FES | HE o APERA EE”, QO) 12-1 和 示例 12-4 
ZR œ 


R 12-1: (4) PaaS UML XA; (A) 虚线 箭头 是 示例 12-4 
使 用 的 方法 解析 顺序 


示例 12-4 diamond.py: 图 12-1 中 的 A、B、C 和 0D 四 个 类 


class A: 
def ping(self): 
print('ping:', self) 


class B(A): 
def pong(self): 
print('pong:', self) 


class C(A): 
def pong(self): 
print('PONG:', self) 


class D(B, C): 


def ping(self): 
super().ping() 
print('post-ping:', self) 


def pingpong(self): 
self.ping() 
super().ping() 
self .pong() 
super().pong() 
C.pong(self ) 


注意 ，B 和 C 都 实现 了 pong 方法 ， 二 者 之 间 唯 一 的 区 别 是 ，C.pong 方法 


输出 的 是 大 写 的 PONG ° 

在 D 的 实例 上 调用 d .pong( ) 方法 的 话 ， 运 行 的 是 哪个 pong 方法 呢 ? 在 
C++ 中 ， 程 序 员 必 须 使 用 类 名 限定 方法 调用 来 避免 这 种 卜 义 。Python 也 能 这 
么 做 ， 如 示例 12-5 所 示 。 


示例 12-5 在 D 实例 上 调用 pong 方法 的 两 种 方式 


>>> from diamond import * 
>>> d = D() 
>>> d.pong() #@ 


pong: <diamond.D object at 0x10066c278> 
>>> C.pong(d) #@ 
PONG: <diamond.D object at 0x10066c278> 


@ 直接 调用 d.pong () 运行 的 是 B 类 中 的 版 本 。 
@ 超 类 中 的 方法 都 可 以 直接 调用 ， 此 时 要 把 实例 作为 显 式 参数 传 入 。 


Python 能 区 分 d.pong() 调用 的 是 哪个 方法 ， 是 因为 Python 会 按照 特定 的 
顺序 所 历 继 承 图 。 这 个 顺序 叫 方 法 解析 顺序 Method Resolution Order, 
MRO) 。 类 都 有 一 个 名 为 ”mro__ 的 属性 ， 它 的 值 是 一 个 元 组 ， 按 照 方法 
解析 顺序 列 出 各 个 超 类 ， 从 当前 类 一 直 向 上 ， 直 到 object 类 。D 类 的 

— mro 属性 如 下 (如 图 12-1 所 示 ) : 


>>> D.__mro__ 
(<class 'diamond.D'>, <class 'diamond.B'>, <class 'diamond.C'>, 


<class 'diamond.A'>, <class '‘object'>) 


若 想 把 方法 调用 委托 给 超 类 ， 推 荐 的 方式 是 使 用 内 置 的 super( ) 函数 。 在 
Python 3 中 ， 这 种 方式 变 得 更 容易 了 ， 如 示例 12-4 中 D 类 的 pingpong 方 


法 所 示 。4 然而 ， 有 时 可 能 需要 绕 过 方法 解析 顺序 ， 直 接 调 用 某 个 超 类 的 方 
法 一 一 这 样 做 有 时 更 方便 。 例 如 ，D.ping 方法 可 以 这 样 写 : 


4 在 Python 2 中 ， 要 把 D,pingpong 方法 的 第 二 行 从 super().ping() 改 成 super(D， 
self).ping() ° 


def ping(self): 
A.ping(self) # 而 不 是 super().ping() 


print('post-ping:', self) 


注意 ， 直 接 在 类 上 调用 实例 方法 时 ， 必 须 显 式 传 入 self 参数 ， 因 为 这 样 访 
问 的 是 未 绑 定 方 法 (unbound method) 。 

然而 ， 使 用 super() 最 安全 ， 也 不 易 过 时 。 调 用 框架 或 不 受 上 自己 控制 的 类 
层次 结构 中 的 方法 时 ， 尤 其 适合 使 用 super( )。 使 用 super() 调用 方法 
时 ， 会 遵守 方法 解析 顺序 ， 如 示例 12-6 所 示 。 


示例 12-6 使 用 super() 函数 调用 ping 方法 (源码 在 示例 12-4 F) 


>>> from diamond import D 
>>> d = D() 
>>> d.ping() #@ 


ping: <diamond.D object at 0x10cc40630> # @ 
post-ping: <diamond.D object at 0x10cc40630> # ® 


© D 类 的 ping 方法 做 了 两 次 调用 。 


@ 第 一 个 调用 是 super() ,ping(); super KŽGE ping 调用 委托 给 A 
类 ; 这 一 行 由 A.ping 输出 。 


© 第 二 个 调用 是 print('post-ping:'，self)， 输 出 的 是 这 一 行 。 
下 面 来 看 在 D 实例 上 调用 pingpong 方法 得 到 的 结果 ， 如 示例 12-7 所 示 。 
示例 12-7 pingpong 方法 的 5 个 调用 (源码 在 示例 12-4 F) 


>>> from diamond import D 

>>> d = D() 

>>> d.pingpong() 

ping: <diamond.D object at 0x10bf235c0> #@ 
post-ping: <diamond.D object at Ox10bf235c0> 
ping: <diamond.D object at 0x10bf235c0> # @ 
pong: <diamond.D object at 0x10bf235c0> # © 


pong: <diamond.D object at 0x10bf235c0> #@ 
PONG: <diamond.D object at 0x10bf235c0> # © 


@ 第 一 个 调用 是 self.ping(), tHE DAN ping 方法 ， 输 出 这 一 行 
和 下 一 行 。 

@ 第 二 个 调用 是 super() .ping()， 跳 过 D 类 的 ping 方法 ， 找 到 A 类 的 
ping 方法 。 
© 第 三 个 调用 是 self.pong(), 根据 __mro__ ， 找到 的 是 B 类 实现 的 
pong 方法 。 


@ 第 四 个 调用 是 super() .pong()， 也 根据 __mro  ， 找 到 B 类 实现 的 
pong 方法 。 


O 第 五 个 调用 是 C.pong(self)， 忽 上 略 mro ， 找 到 的 是 C 类 实现 的 pong 
T 


方法 解析 顺序 不 仅 考 虑 继承 图 ， 还 考虑 子 类 声明 中 列 出 超 类 的 顺序 。 也 就 是 
说 ， 如 果 在 diamond.py 文件 ( 见 示例 12-4) 中 把 D 类 声明 为 class D(C, 
B):， 那 么 D 类 的 __mro__ 属性 束 会 不 一 样 : 先 搜 索 C 类 ， 再 搜索 B 类 。 


分 析 类 时 ， 我 经 营 在 交互 式 控制 台中 查看 _mro__ 属性。 示例 12-8 中 是 一 
些 第 用 类 的 方法 搜索 顺序 。 


示例 12-8 ”查看 几 个 类 的 _ mro _ 属性 


>>> bool.__mro__ @ 
(<class 'bool'>, <class ‘'int'>, <class 'object'>) 
>>> def print_mro(cls): @ 
print(', '.join(c.__name__ for c in cls.__mro_)) 


>>> print_mro(bool) 

bool, int, object 

>>> from frenchdeck2 import FrenchDeck2 

>>> print_mro(FrenchDeck2) © 

FrenchDeck2, MutableSequence, Sequence, Sized, Iterable, Container, 
object 

>>> import numbers 

>>> print_mro(numbers.Integral) @ 

Integral, Rational, Real, Complex, Number, object 
>>> import io © 

>>> print_mro(io.BytesI0O) 

BytesIO, _BufferedIOBase, _IO0Base, object 


>>> print_mro(io.TextIOwrapper ) 
TextIOWrapper, _TextIOBase, _IOBase, object 


© bool 从 int 和 object 中 继承 方法 和 属性 
@ print_mro 函数 使 用 更 紧凑 的 方式 显示 方法 解析 顺序 。 


© FrenchDeck2 类 的 祖先 包含 collections,abc 模块 中 的 几 个 抽象 基 


O 这 些 是 numbers 模块 提供 的 儿 个 数字 抽象 基 类 。 


O io 模块 中 有 抽象 基 类 (名 称 以 ，. .Base RAAB) 和 具体 类 ， 如 
BytesI0 和 TextIOWrapper ° open() 函数 返回 的 对 象 属于 这 些 类 型 ， 
具体 要 根据 模式 参数 而 定 。 


` 


方法 解析 顺序 使 用 C3 算法 计算 。Michele Simionato 的 论文 “The Python 
2.3 Method Resolution Order” 对 Python 方法 解析 顺序 使 用 的 C3 算法 做 了 
权威 论述 。 如 果 对 方法 解析 顺序 的 细节 感 兴趣 ， 可 以 阅读 延伸 阅读 中 给 
出 的 资料 。 不 用 过 分 担心 ，C3 算法 不 难 理解 ，Simionato 写 道 : 


ae PRIA SEAS RK, BARK AAAS, GUANA T 
解 C3 算法 ， 因 此 也 不 用 阅读 这 篇 论文 。 


结束 对 方法 解析 顺序 的 讨论 之 前 ， 我 们 来 看 看 图 12-2。 这 幅 图 展示 了 Python 
标准 库 中 GUI 工具 包 Tkinter 复杂 的 多 重 继承 图 。 研究 这 幅 图 时 ， 要 从 底部 
的 Text 类 开始 。 这 个 类 全 面 实现 了 多 行 可 编辑 文本 小 组 件 ， 它 自身 有 丰富 
的 功能 ， 不 过 也 从 其 他 类 继承 了 很 多 方法 。 左 边 是 常规 的 UML Ale A 
WAT — 一 些 箭 头 ， 表 示 方 法 解析 顺序 。 使 用 示例 12-8 中 定义 的 便利 函数 
in 得 到 的 输出 如 下 : 


>>> import tkinter 
>>> print_mro(tkinter.Text) 
Text, Widget, BaseWidget, Misc, Pack, Place, Grid, XView, YView, object 


Ke Misc Z7 
BaseWidget ; BaseWidget 
- Z\ I A ` 

<<mixin>> I 

Pack V 1 i 

FP 1 , 

<<mixin>> m 

Place K Widget i 
<<mixin>> ES A i 

Grid ` 


图 12-2: (Æ) Tkinter 中 Text 小 组 件 类 及 其 超 类 的 UML 类 图 ; (4) 
使 用 虚线 箭头 表示 Text._ mro 


下 一 节 以 真实 框架 为 例 说 明 多 重 继承 的 优 缺 点 。 


12.3 多重 继承 的 真实 应 用 


多 重 继承 能 发 挥 积 极 作 用 。《 设 计 模 式 : 可 复 用 面 癌 对 象 软件 的 基础 》 一 书 
中 的 适配器 模式 用 的 就 是 多 重 继承 ， 因 此 使 用 多 重 继 承 肯 定 没有 错 (ARAB 
Tod 22 个 设计 模式 都 使 用 单 继承 ， 因 此 多 重 继承 显然 不 是 灵 丹 妙 

药 ) 。 


在 Python 标准 库 中 ， 最 第 使 用 多 重 继承 的 是 collections.abc 包 。 这 没 
什么 问题 ， 毕 竟 连 Java 都 支持 接口 的 多 重 继 承 ， 而 抽象 基 类 就 是 接口 声明 ， 
只 不 过 它 可 以 提供 具体 方法 的 实现 。5 


5 前 面 说 过 ，Java 8 也 人 允许 提供 方法 实现 。 这 个 新 功能 在 官方 的 Java 教程 中 叫 默认 方法 。 


在 标准 库 中 ，GUI 工具 包 Tkinter (tkinter 模块 是 Tcl/Tk 的 Python 接口 ， 
https://docs.python.org/3/library/tkinter.html) 把 多 重 继承 用 到 了 极致 。 图 12-2 
中 展示 的 方法 解析 顺序 是 Tkinter 小 组 件 层次 结构 的 一 部 分 ， 图 12-3 则 列 出 
了 tkinter 基 包 中 的 全 部 小 组 件 类 (tkinter.ttk 子 包 中 还 有 一 些 ， 
https://docs.python.org/3/library/tkinter.ttk.html) 。 
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图 12-3: Tkinter GUI 类 层次 结构 的 UML HA; 使 用 «mixin» 标记 的 类 通 
过 多 重 继承 为 其 他 类 提供 具体 方法 


写作 本 书 时 ，Tkinter 已 经 20 安 了 ， 不 能 代表 当下 的 最 佳 实践 。 但 是 ， 它 却 
能 表明 当 没有 意识 到 多 重 继承 的 缺点 时 ， 程 序 员 是 如 何 使 用 多 重 继承 的 。 下 
一 节 讨 论 一 些 好 的 做 法 时 ， 会 把 Tkinter 作为 反面 教材 。 

来 看 图 12-3 中 的 几 个 类 。 

@ Toplevel: 表示 Tkinter 应 用 程序 中 顶层 窗口 的 类 。 

@ Widget: 窗口 中 所 有 可 见 对 象 的 超 类 。 

© Button: 普通 的 按钮 小 组 件 。 

O Entry: 单行 可 编辑 文本 字段 。 

O Text: 多 行 可 编辑 文本 字段 。 


这 几 个 类 的 方法 解析 顺序 如 下 ， 这 些 输出 使 用 示例 12-8 中 定义 的 
print_mro 函数 得 到 : 


>>> import tkinter 

>>> print_mro(tkinter.Toplevel) 

Toplevel, BaseWidget, Misc, Wm, object 

>>> print_mro(tkinter.Widget ) 

Widget, BaseWidget, Misc, Pack, Place, Grid, object 
>>> print_mro(tkinter.Button) 


Button, Widget, BaseWidget, Misc, Pack, Place, Grid, object 

>>> print_mro(tkinter.Entry) 

Entry, Widget, BaseWidget, Misc, Pack, Place, Grid, XView, object 

>>> print_mro(tkinter.Text) 

Text, Widget, BaseWidget, Misc, Pack, Place, Grid, XView, YView, object 


在 类 之 间 的 关系 方面 有 几 点 要 注意 。 
。 Toplevel 是 所 有 图 形 类 中 唯一 没有 继承 Widget 的 ， 因 为 它 是 顶层 窗 
口 ， 行 为 不 像 小 组 件 ， 例 如 不 能 依附 到 窗口 或 窗 体 上 。Toplevel 继承 
自 wm， 后 者 提供 直接 访问 宿主 窗口 管理 器 的 函数 ， 例 如 设置 窗口 标题 
和 配置 窗口 边框 。 


Widget 直接 继承 自 Basewidget， 还 继承 了 Pack > Place 和 
Grid。 后 三 个 类 是 几何 管理 器 ， 负 责 在 窗口 或 窗 体 中 排 布 小 组 件 。 各 
个 类 封装 了 不 同 的 布局 策略 和 小 组 件 位 置 API。 


Button 与 大 多 数 小 组 件 一 样 ， 只 是 widget 的 子 代 ， 也 间接 继承 
Misc， 后 者 为 各 个 小 组 件 提供 了 大 量 方法 。 


e Entry Widget 和 XView 的 子 类 ， 后 者 实现 横向 滚动 。 
e Text 是 Widget、XView 和 YView 的 子 类 ， 后 者 提供 纵向 滚动 功能 。 


下 面 将 讨论 多 重 继承 一 些 好 的 做 法 ， 看 看 Tkinter 有 没有 践 行 。 


12.4 处理 多 重 继承 


ARN 我 们 需要 一 种 更 好 的 、 全 新 的 继承 理论 〈 目 前 仍 是 如 此 ) 。 例如， 
继承 和 实例 化 (一 种 继承 方式 ) Ia TBA 〈 比 如 为 了 节省 空间 而 重 构 
代码 ) 和 语义 (用途 太 多 了 ， 比 如 特殊 化 、 普 遍 化 、 形 态 ， 等 等 。 


— Alan Kay 
“The Early History of Smalltalk” 


如 Alan Kay 所 言 ， 继 承 有 很 多 用 途 ， 而 多 重 继承 增加 了 可 选 方案 和 复杂 
度 。 使 用 多 重 继承 容易 得 出 令 人 费解 和 脆弱 的 设计 。 我 们 还 没有 完整 的 理 


论 ， 下 面 是 避免 把 类 图 搅乱 的 一 些 建议 。 
01. 把 接口 继承 和 实现 继承 区 分 开 
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。 继承 接口 ， 创 建 子 类 型 ， 实 现 “ 是 什么 ”关系 
。 继承 实现 ， 通 过 重用 避免 代码 重复 
其 实 这 两 条 经 常 同时 出 现 ， 不 过 只 要 可 能 ， 一 定 要 明确 意图 。 通 过 继承 


重用 代码 是 实现 细节 ， 通 常 可 以 换 用 组 合 和 委托 模式 。 而 接口 继承 则 是 
框架 的 支柱。 


m 


. 使 用 抽象 基 类 显 式 表示 接口 


现代 的 Python 中 ， 如 果 类 的 作用 是 定义 接口 ， 应 该 明确 把 它 定 义 为 抽象 
基 类 。Python 3.4 及 以 上 的 版 本 中 ， 我 们 要 创建 abc .ABC 或 其 他 抽象 基 
类 的 子 类 (如 果 想 支持 较 旧 的 Python 版本， 参见 11.7.1 节 ) ° 


.通过 混入 重用 代码 


如 采 一 个 类 的 作用 是 为 多 个 不 相关 的 子 类 提供 方法 实现 ， 从 而 实现 重 

用 ,但 不 体现 “是 什么 ”关系 ， 应 该 把 那个 类 明确 地 定义 为 混入 类 (mixin 
class) 。 从 概念 上 讲 ， 混 入 不 定义 新 类 型 ， 只 是 打包 方法 ， 便 于 重用 ° 
混入 类 绝对 不 能 实例 化 ， 而 且 具 体 类 不 能 只 继承 混入 类 。 混 入 类 应 该 提 
供 某 方面 的 特定 行为 ， 只 实现 少量 关系 非常 紧密 的 方法 。 


.在 名 称 中 明确 指明 混入 


因为 在 Python 中 没有 把 类 声明 为 混入 的 正规 方式 ， 所 以 强烈 推荐 在 名 称 
中 加 入 .. .Mixin 后 级 。Tkinter 没有 采纳 这 个 建议 ， 如 果 采 纳 的 话 ， 
XView 会 变 成 XViewMixin, Pack 会 变 成 PackMixin， 12-3 中 所 
有 使 用 «mixin» 标记 的 类 都 应 该 这 么 做 。 


.抽象 基 类 可 以 作为 混入 ， 反 过 来 则 不 成 立 


抽象 基 类 可 以 实现 具体 方法 ， 因 此 也 可 以 作为 混入 使 用 。 不 过 ， 抽 和 象 基 
类 会 定义 类 型 ， 而 混入 做 不 到 。 此 外 ， 抽 象 基 类 可 以 作为 其 他 类 的 唯一 
基 类 ， 而 混入 决 不 能 作为 唯一 的 超 类 ， 除 非 继 承 妨 一 个 更 具体 的 混入 

一 一 真实 的 代码 很 少 这 样 做 。 


06. 


0 


N 


08. 


抽象 基 类 有 个 局 限 是 混入 没有 的 : TARE IP SSL ARIA ARE H 
象 基 类 及 其 超 类 中 的 方法 协作 。 这 表明 ， 抽 象 基 类 中 的 具体 方法 只 是 
因为 这 些 方法 所 做 的 一 切 ， 用 户 调 用 抽象 基 类 中 的 其 他 方 
法 | 


不 要 子 类 化 多 个 具体 类 


具体 类 可 以 没有 ， 或 最 多 只 有 一 个 具体 超 类 。# 也 就 是 说 ， 具 体 类 的 超 
类 中 除了 这 一 个 具体 超 类 之 外 ， 其 余 的 都 是 抽象 基 类 或 混入 。 例 如 ， 在 
eee use Alpha RX, JBA Beta 和 Gamma 必须 是 抽象 
基 类 或 混入 : 


Ge WONT to Asst Tl Beta; Gamma): 
"这 是 一 个 具体 类 ， 可 以 实例 化 。 


. 为 用 户 提供 育 合 类 


如 果 抽 象 基 类 或 混入 的 组 合 对 客户 代码 非常 有 用 ， 那 就 提供 一 个 类 ， 使 
用 易于 理解 的 方式 把 它们 结合 起 来 。Grady Booch 把 这 种 类 称 为 聚合 类 


(aggregate class) ° 7 


例如 ， 下 面 是 tkinter .Widget 类 的 完整 代码 : 


class Widget(BaseWidget, Pack, Place, Grid): 
'"Tnternal class. 


Base class for a widget which can be positioned with the 


geometry managers Pack, Place or Grid. 
pass 


Widget 类 的 定义 体 是 空 的 ， 但 是 这 个 类 提供 了 有 用 的 服务 : 把 四 个 超 
类 结合 在 一 起 ， 这 样 需要 创建 新 小 组 件 的 用 户 无 需 记 住 全 部 混入 ， 也 不 
用 担心 声明 class 语句 时 有 没有 遵守 特定 的 顺序 。Django 中 的 
ListView 类 是 更 好 的 例子 ， 稍 后 在 12.5 WE ° 


“优先 使 用 对 象 组 合 ， 而 不 是 类 继承 ” 


AES A 《设计 模式 : 可 复 用 面 问 对 象 软件 的 基础 》 一 书 ，? 这 是 我 
能 提供 的 最 佳 建议 。 熟 悉 继承 之 后 ， 就 太 容易 过 度 使 用 它 了 。 出 于 对 秩 
我 们 喜欢 按 整 洁 的 层次 结构 放置 物品 ， 程 序 员 更 是 乐 此 不 
js 


然而 ， 优 先 使 用 组 合 能 让 设计 更 灵活 。 例 如 ， 对 tkinter.widget 类 
来 说 ， 它 可 以 不 从 全 部 几何 管理 器 中 继承 方法 ， 而 是 在 小 组 件 实例 中 维 
护 一 个 几何 管理 器 引用 ， 然 后 通过 它 调用 方法 。 毕 竞 ， 小 组 件 “ 不 是 ” 几 
何 管理 絮 ， 但 是 可 以 通过 委托 使 用 相关 的 服务 。 这 样 ， 我 们 可 以 放心 添 
加 新 的 几何 管理 器 ， 不 必 担 心 会 触动 小 组 件 类 的 层次 结构 ， 也 不 必 担 心 
名 称 冲 突 。 即 便 是 单 继承 ， 这 个 原则 也 能 提升 灵活 性 ， 因 为 子 类 化 是 一 
PAR, MARA AD fl 


组 合 和 委托 可 以 代替 混入 ， 把 行为 提供 给 不 同 的 类 ， 但 是 不 能 取代 接口 
继承 去 定义 类 型 层次 结构 。 


56 在“ 水禽 和 抽象 基 类 ”中 ，Alex Martelli 提 到 Scott Meyer 写 的 More Effective C++ 一 书 ， 他 做 得 更 
绝 , “将 非 尾 端 类 设计 为 抽象 类 ”( 即 ， 具 体 类 根本 不 应 该 有 具体 超 类 ) 


“如 果 一 个 类 的 结构 主要 继承 自 混入 ， 自 身 没有 添加 结构 或 行为 ， 那 么 这 样 的 类 称 为 聚合 类 。”Grady 
Booch et al., Object Oriented Analysis and Design, 3E (Addison-Wesley, 2007), p. 109. 


《设计 模式 ， 可 复 用 面向 对 象 软件 的 基础 》 第 13 页 。 


接 下 来 ， 我 们 将 从 这 些 建议 入 手 分 析 Tkinter 。 
Tkinter 好 的 、 不 好 的 和 令 人 厌恶 的 方面 


` 记 住 一 点 ， 自 1994 年 发 布 的 Python 1.1 #2, Tkinter 就 在 标准 库 中 
T ° Tkinter 的 底层 是 Tcl 语言 优秀 的 GUI 工具 包 Tk ° Tel/Tk 组 合 原本 
不 是 面向 对 象 的 ， 因 此 Tk API 基本 上 就 是 一 堆 函 数 。 尽 管 没 有 使 用 面 
向 对 象 方式 实现 ， 但 是 这 个 工具 包 的 理念 极 具 面向 对 象 思想 。 


前 儿 节 给 出 的 建议 Tkinter 大 都 没有 采用 ， 不 过 第 7 点 是 个 例外 。 但 是 
Tkinter 做 得 并 不 好 ， 因 为 使 用 组 合 模式 把 几何 管理 器 案 成 Widget 中 更 
好 ， 如 第 8 点 所 述 。 


tkinter .Widget 类 的 文档 字符 串 开头 说 它 是 “内 部 类 ”。 这 或 许 表 明 
Widget 应 该 定义 为 抽象 大 类 。 Widget 自身 虽然 没有 方法 ， 但 是 它 定 义 了 
接口 。 它 传达 的 意思 是 : “每 个 Tkinter 小 组 件 都 会 提供 基本 的 方法 
(init 、destroy， 以 及 众多 Tk API 函数 ) ， 此 外 还 会 提供 三 个 

何 管理 器 中 的 全 部 方法 。” 你 可 以 不 同意 这 是 定义 接 口 的 好 方式 
T) ， 但 是 这 样 确实 能 定义 接口 ，Widget 就 把 接口 “定义 ”为 超 类 接口 的 联 


po 


封装 GUI 应 用 逻辑 的 Tk 类 继承 自 Wm 和 Misc， 这 两 个 类 既 不 是 抽象 类 ， 也 
不 是 混入 (Wm 不 算是 混入 ， 因 为 TopLevel 的 超 类 只 有 它 一 个 ) © Misc 
类 的 名 称 本 身 明 显 是 代码 异味 。Misc 有 100 多 个 方法 ， 而 且 所 有 小 组 件 类 
都 继承 它 。 为 什么 每 个 小 组 件 都 要 处 理 剪 切 板 、 文 本 选择 和 计时 器 等 ? 我 们 
可 能 不 能 把 文本 粘贴 到 按钮 上 ， 也 不 能 选择 滚动 条 里 的 文字 。 Misc 应 该 拆 
分 成 几 个 专门 的 混入 类 ， 而 且 不 是 所 有 小 组 件 都 应 该 继承 这 些 混 入 。 


说 实在 的 ， 作 为 Tkinter 的 用 户 ， 你 根本 不 用 知道 或 使 用 多 重 继承 。 那 些 都 
是 隐藏 起 来 的 实现 细节 ， 你 在 自己 的 代码 中 只 需 实 例 化 或 子 类 化 小 组 件 类 。 
不 过 ， 如 果 你 想 查 找 自己 需要 的 方法 ， 在 控制 台中 输入 
dir(tkinter.Button)， 你 会 发 现 列 出 了 214 个 属性 ，， 此 时 你 就 是 多 重 
继承 的 受害 者 。 


前 的 版 本 中 只 有 209 个 属性 。 编者 注 


除了 这 些 问 题 ，Tkinter 还 是 稳定 而 灵活 的 ， 未 必 那 么 不 堪 。 陈 旧 (和 默认 ) 
的 Tk 小 组 件 没有 考虑 现代 的 用 户 界面 ， 但 是 Python 3.1 (2009 年 发 布 ) 提 
供 了 tkinter .ttk 包 ， 这 个 包 提供 的 小 组 件 很 精美 ， 外 观 同 原生 的 一 样 ， 
开发 出 的 GUI 应 用 也 更 专业 。 此 外 ， 有 些 陈 旧 的 小 组 件 ， 如 Canvas 和 
Text， 功 能 异常 强大 。 只 需 少 量 代码 ， 束 能 把 一 个 Canvas 对 象 打造 成 简 
单 的 拖 搜 绘图 应 用 。 如 果 你 对 GUI 编程 感 兴趣 ，Tkinter 和 Tcl/Tk 绝对 值得 
一 看 é 
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然而 ， 我 们 的 主题 不 是 GUI 编程 ， 而 是 多 重 继承 的 运用 。 显 式 使 用 混入 类 的 
现代 示例 在 Django 中 可 以 找到 。 


12.5 “一 个 现代 示例 : Django 通 用 视图 中 的 混入 


LN 阅读 本 万 不 需要 掌握 Django 知识 。 我 只 是 使 用 这 个 框架 的 一 小 部 
分 为 例 说 明 多 重 继承 的 运用 ， 我 会 尽量 给 出 所 需 的 全 部 背景 知识 ， 而 且 
假设 你 使 用 其 他 语言 或 框架 做 过 服务 器 端 Web 开发 。 


在 Django 中 ， 视 图 是 可 调用 的 对 象 ， 它 的 参数 是 表示 HTTP 请 求 的 对 象 ， 
返回 值 是 一 个 表示 HTTP 了 啊 应 的 对 象 。 我 们 要 关注 的 是 这 些 响 应 对 象 。 咽 应 
可 以 是 简单 的 重 定 向 ， 没 有 主体 内 容 ， 也 可 以 是 复杂 的 内 容 ， 如 在 线 商 店 的 
它 使 用 HTML 模板 泻 染 ， 列 出 多 个 货品 ， 而 且 有 购买 按钮 和 详情 
页 面 链接 。 


起 初 ，Django 提供 的 是 一 系列 画 数 ， 这 叫 通用 视图 ， 实 现 常见 的 用 例 。 例 
如 ， 很 多 网 站 都 需要 展示 搜索 结果 ， 里 面包 含 很 多 项 目 ， 分 成 多 页 ， 而 且 各 
个 项 目 会 链接 到 详细 信息 页 面 。 在 Django 中 ， 这 种 需求 使 用 列表 视图 和 详 
情 视图 实现 ， 前 者 用 于 泻 染 搜索 结果 ， 后 者 用 于 生成 各 个 项 目的 详情 页 面 。 


然而 ， 最 初 的 通用 视图 是 函数 ， 不 能 扩展 。 如 果 和 需求 与 列表 视图 相似 但 不 完 
全 一 样 ， 那 么 不 得 不 目 己 从 头 实 现 。 


Django 1.3 引入 了 基于 类 的 视图 ， 而 且 还 通过 基 类 、 混 入 和 拿 来 即 用 的 具体 
类 提供 了 一 些 通用 视图 类 。 这 些 基 类 和 混入 在 django.views.generic 
包 的 base 模块 里 ， 如 图 12-4 所 示 。 在 这 张 图 中 ， 位 于 顶部 的 两 个 类 ， 
View 和 TemplateResponseMixin， 人 负责 完全 不 同 的 工作 。 


a 在 Classy Class-Based Views 网 站 中 可 以 深入 人 研究 这 些 类 ， 你 可 以 
轻松 地 浏览 各 个 视图 类 、 查 看 它们 的 全 部 方法 (继承 的 、 窗 盖 的 和 上 自己 
添加 的 ) 、 查 看 图 表 、 浏 贤 文 档 ， 以 及 跳 转 到 GitHub 中 的 源码 。 


TemplateResponseMixin 


template_name 
init response_class 


as view render_to_response 
dispatch get_template_names 
http_method_not_allowed 
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ContextMixin 
RedirectView ee 
pattern_name get_context_data 


permanent 

url | TemplateView 
query_string content_type 
delete response_class 
get template_name 
get_redirect_url 


head 
patch 
post 
put 


图 12-4: django. views. generic. base 模块 的 UML 类 图 


View 是 所 有 视图 (可 能 是 个 抽象 基 类 ) 的 基 类 ， 提 供 核心 功能 ， 如 
dispatch 方法 。 这 个 方法 委托 具体 子 类 实现 的 处 理 方法 (handler) ， 如 
get ` head ` post 等 ， 处 理 不 同 的 HTTP 动词 。19RedirectView 类 只 继 
承 View， 可 以 看 到 ， 它 实现 了 get、head、post 等 方法 。 


Django 程序 员 知 道 ，as_view 类 方法 是 View 接口 最 为 重要 的 部 分 ， 不 过 它 与 这 里 讨论 的 话题 无 
on 


View 的 具体 子 类 应 该 实现 处 理 方法 ， 但 它们 为 什么 不 在 View 接口 中 呢 ? 
原因 是 : 子 类 只 需 实现 它们 想 支 持 的 处 理 方法 。TemplateView 只 用 于 显 
示 内 容 ， 因 此 它 只 实现 了 get 方法 。 如 果 把 HTTP POST 请 求 发 给 

TemplateView， 经 继承 的 View.dispatch 方法 检查 ， 它 没有 post 处 


理 方法 ， 因 此 会 返回 HTTP 405 Method Not Allowed (不 允许 使 用 的 方 
法 ) m o H 


也 如 果 深 入 了 解 设 计 模 式 ， 你 会 发 现 Django 的 分 派 机 制 是 动态 版 模板 方法 模式 。 之 所 以 说 是 动态 
的 ， 是 因为 View 类 不 强制 子 类 实现 所 有 处 理 方法 ， 而 是 让 dispatch 方法 在 运行 时 检查 有 没有 针 
对 特定 请 求 的 具体 处 理 方 法 。 


TemplateResponseMixin 提供 的 功能 只 针对 需要 使 用 模板 的 视图 。 例 
如 ，RedirectView 没有 主体 内 容 ， 因 此 它 不 需要 模板 ， 也 就 没有 继承 这 
个 混入 。TemplateResponseMixin 为 TemplateView 和 
django.views.generic 包 中 定义 的 使 用 模板 泻 染 的 其 他 视图 (例如 
ListView、DetailView， 等 等 ) 提供 行为 。 图 12-5 是 
django.views .generic.1list 模块 和 部 分 base 模块 的 图 解 。 


MultipleObjectMixin 
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图 12-5: django.views. generic. list 模块 的 UML 类 图 ;图 中 属于 
base 模块 的 三 个 类 没有 详细 说 明 (参见 图 12-4) ; ListView 类 没有 方法 
和 属性 ， 它 是 一 个 聚合 类 


对 Django 用 户 来 说 ， 在 图 12-5 中 ， 最 重要 的 类 是 ListView。 这 是 一 个 聚 
合 类 ， 不 含 任何 代码 (定义 体 中 只 有 一 个 文档 字符 串 ) ° ListView 实例 有 
+ object_list 属性 ， 模 板 会 迭代 它 显示 页 面 的 内 容 ， 通 常 是 数据 库 查询 
返回 的 多 个 对 象 。 生 成 这 个 可 迭代 对 象 列表 的 相关 功能 都 由 


MultipleObjectMixin 提供 。 这 个 混入 还 提供 了 复杂 的 分 页 逻辑 ， 即 在 
一 页 中 显示 部 分 结果 ， 并 提供 指向 其 他 页 面 的 链接 。 


假设 你 想 创建 一 个 使 用 模板 演 染 的 视图 ， 但 是 会 生成 一 组 JSON 格式 的 对 
象 ， 此 时 用 得 到 BaseListView 类 。 这 个 类 提供 了 易于 使 用 的 扩展 点 ， 把 
View 和 Multiple0bjectMixin 的 功能 整合 在 一 起 ， 避 免 了 模板 机 制 的 
开销 。 


与 Tkinter 相 比 ，Django 基于 类 的 视图 API 是 多 重 继 承 更 好 的 示例 。 尤 其 
是 ，Django 的 混入 类 易于 理解 : 各 个 混入 的 目的 明确 ， 而 且 名 称 的 后 绥 都 是 
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Django 用 FR ee Te F RAE 。 很 多 人 确实 在 使 用 ， 但 是 用 法 有 
BR, 30" a 盒 ， 需 要 新 功能 时 ， 很 多 Django 程序 员 依然 选择 编写 单 
块 视图 丽 数 ， 负 责 处 理 所 有 事务 ， 而 不 尝试 重用 基 视 图 和 混入 。 


EB ON ae is 已 们 确实 需要 一 些 时 间 ， 不 过 我 觉得 
这 是 值得 的 : 基于 类 的 视图 能 避免 大 量 样 板 代 码 ， 便 于 重用 ， 还 能 增进 团队 
交流 例如 ， 为 模板 和 传 给 模板 上 下 文 的 变量 定义 标准 的 名 称 。 基 于 类 的 
视图 把 Django 视图 带 到 了 正轨 上 。 


我 们 对 多 重 继 承 和 混入 类 的 讨论 到 此 结束 。 


12.6 ”本 章 小 结 


本 章 对 继承 的 讨 ? 仑 先 从 子 类 化 内 置 类 型 引起 的 问题 谈 起 : 内 置 类 型 的 原生 方 
法 使 用 C 语言 实现 ， 不 会 调用 子 类 中 禾 盖 的 方法 ， 不 过 有 极 少数 例外 。 因 
此 ， 需 要 定制 ]ist、dict 或 str 类 型 时 ， 子 类 化 UserList、 
UserDict 或 UserString 更 简单 。 这 些 类 在 collections 模块 中 定 
L, 它们 其 实 是 对 内 置 类 型 的 包装 ， 会 把 操作 委托 给 内 置 类 型 一 一 这 是 标准 
库 中 优先 选择 组 合 而 不 使 用 继承 的 三 个 例子 。 如 果 所 需 的 行为 与 内 置 类 型 区 
别 很 大 ， 或 许 更 容易 的 做 法 是 ， 子 类 化 collections.abc 模块 中 相应 的 
抽象 基 类 ， 然 后 自己 实现 。 


本 章 余 下 的 内 容 着 重 探讨 了 多 重 继承 这 把 双 刃 剑 。 首 先 ， 我 们 说 明了 
mro _ 类 属性 中 至 藏 的 方法 解析 顺序 ， 有 了 这 一 机 制 ， 继 承 方法 的 名 称 
不 再 会 发 生 冲 突 。 我 们 还 提 到 ， 内 置 的 super() 函数 会 按照 mro 属 
性 给 出 的 顺序 调用 超 类 的 方法 。 然 后 ， 我 们 分 析 了 Python 标准 库 中 GUI 工 
HE Tkinter 对 多 重 继 承 的 运用 。Tkinter 不 能 代表 当前 的 最 佳 实践 ， 因 此 我 
们 讨论 了 处 理 多 重 继 承 的 一 些 方式 ， 例 如 谍 慎 使 用 混入 类 ， 以 及 借助 组 合 模 


式 彻底 避免 使 用 多 重 继承 。 指 出 Tkinter 对 多 重 继承 的 使 用 已 经 到 了 滥用 的 
程度 后 ， 我 们 在 最 后 一 节 分 析 了 Django 基于 类 的 视图 ， 了 解 了 它们 的 核心 
层次 结构 。 我 觉得 这 更 好 地 利用 了 混入 。 


Lennart Regebro (一 位 经 验 非常 丰富 的 Python 程序 员 ， 也 是 本 书 的 技术 审 校 
之 一 ) 发 现 Django 通过 混入 设计 的 视图 层次 结构 有 点 混乱 。 但 是 他 又 写 
道 : 


多 重 继承 的 危害 和 缺点 被 放大 了 “。 我 从 来 不 觉得 它 是 什么 大 问题 。 


总 之 ， 每 个 人 对 如 何 使 用 以 及 要 不 要 在 自己 的 项 目 中 使 用 多 重 继承 都 有 目 己 
的 观点 。 但 是 ， 我 们 往往 没 得 选择 ， 因 为 我 们 必须 使 用 的 框架 有 它们 上 自己 的 


选择 。 


12.7 ”延伸 阅读 


使 用 抽象 基 类 时 ， 多 重 继承 很 常见 ， 而 且 实际 上 也 是 不 可 避免 的 ， 因 为 最 基 
本 的 集合 抽象 基 类 (Sequence、Mapping M Set) 都 扩展 多 个 抽象 基 类 。 
collections.abc 的 源码 (Lib/_collections_abc.py) 是 抽象 基 类 使 用 多 重 
继承 的 范例 一 一 其 中 很 多 还 是 混入 类 。 


Raymond Hettinger 写 的 文章 “Python's super() considered super!”， 从 积极 的 角 
度 解 说 了 Python 的 super 和 多 重 继承 的 运作 原理 。 这 篇 文章 是 对 James 
Knight 的 “Python's Super is nifty, but you can't use it” (以 前 题 为 “Python's Super 
Considered Harmful”) 一 文 作出 的 回应 。 


尽管 这 两 篇 文章 的 题目 中 提 到 了 内 置 的 super 函数， 但 它 不 是 真正 的 问题 
Python 3 中 的 super 函数 没有 Python 2 中 那么 令 人 讨厌 了 。 真 正 的 问 
题 是 多 重 继承 ， 它 天 生 复 杂 ， 难 以 处 理 。Michele Simionato 不 再 批评 这 一 
点 ， 他 在 “Setting Multiple Inheritance Straight” 一 文中 给 出 了 解决 方案 : 他 实 
现 了 性 状 (trait) ， 这 是 一 种 受 限 的 混入 ， 源 自 Self 语言 。Simionato 写 了 一 
系列 具有 启发 性 的 博客 文章 ， 对 Python 的 多 重 继 承 进行 了 探讨 ， 包 括 “The 
wonders of cooperative inheritance, or using super in Python 3”, “Mixins 
considered harmful”* 第 一 部 分 和 第 二 部 分 ， 以 及 “Things to Know About Python 
Super 第 一 部 分 、 第 二 部 分 和 第 三 部 分 。 最 早 的 文章 使 用 Python 2 的 super 
名 法， 不 过 依然 值得 一 读 。 


我 读 过 Grady Booch 写 的 《面向 对 象 分 析 与 设计 〈 第 3 版 ) 》， 强 烈 推荐 给 
你 ， 这 有 是 面向 对 象 思 维 的 通用 入 门 书 ， 与 具体 的 编程 语言 无 关 。 很 少 有 书 能 
这 样 不 带 偏见 地 讨论 多 重 继承 。 


想 想 哪 些 类 是 真正 需要 的 


大 多 数 程序 员 编 写 应 用 程序 而 不 开发 框架 。 即 便 是 开发 框架 的 那些 人 ， 
多 数 时 候 (或 大 多 数 时 候 ) 也 是 在 编写 应 用 程序 。 编 写 应 用 程序 时 ， 我 
们 通常 不 用 设计 类 的 层次 结构 。 我 们 至 多 会 编写 子 类 、 继 承 抽象 基 类 或 
框架 提供 的 其 他 类 。 作 为 应 用 程序 开发 者 ， 我 们 极 少 需要 编写 作为 其 他 
oe 我 们 上 自己 编写 的 类 几乎 都 是 末端 类 〈 即 继承 树 的 叶 


如 采 作 为 应 用 程序 开发 者 ， 你 发 现 目 己 在 构建 多 层 类 层次 结构 ， 可 能 是 
KET PERFETTA ° 


。 你 在 重新 发 明 轮 子 。 去 找 框架 或 库 ， 它 们 提供 的 组 件 可 以 在 应 用 程 
序 中 重用 。 


。 你 使 用 的 框架 设计 不 良 。 去 寻找 替代 品 。 
。 你 在 过 度 设 计 。 记 住 要 遵守 KISS 原则 。 
。 你 厌烦 了 编写 应 用 程序 ， 决 定 新 造 一 个 框架 。 茶 喜 ， 视 你 好 运 ! 


这 些 事情 你 可 外 ERBEN: 你 厌倦 了 ， 决 定 重新 发 明 轮 子 ， 目 己 构 建设 
计 过 度 和 不 腿 的 框架 ， 因 此 不 得 不 编写 一 个 又 一 个 类 去 解决 鸡毛 苏 皮 的 
小 事 。 希 望 你 能 乐 在 其 中 ， 至 少 得 到 应 有 的 回报 。 


内 置 类 型 的 不 当 行 为 是 缺陷 还 是 特性 


内 置 的 dict list 和 str 类 型 是 Python 的 底层 基础 ， 因 此 速度 必须 
快 ， 与 这 些 内 置 类 型 有 关 的 任何 性 能 问题 几乎 都 会 对 其 他 所 有 代码 产生 
重大 影响 。 于 是 ，CPython 走 了 捷径 ， 故 意 让 内 置 类 型 的 方法 行为 不 
当 ， 即 不 调用 被 子 关闭 盖 的 方法 。 解决 这 一 困境 的 可 能 方式 之 一 a 
这 些 类 型 分 别提 供 两 种 实现 :一 种 供 内 部 使 用 ， 为 解释 器 做 了 优化 ; 
一 种 供 外 部 使 用 ， 便 于 扩展 。 


但 是 等 等 ， 我 们 已 经 拥有 这 些 了 : UserDict、UserList 和 
UserString 虽然 没有 内 置 类 型 的 速度 快 ， 但 是 易于 扩展 。CPython 采 
用 的 这 种 务实 方式 意味 着 ， 我 们 也 要 在 目 己 的 应 用 程序 中 使 用 做 了 优化 
但 是 难以 子 类 化 的 实现 。 这 是 合理 的 ， 因 为 我 们 每 天 都 使 用 dict、 
list 和 str， 但 是 很 少 需要 定制 映射 、 列 表 或 字符 串 。 我 们 只 需 知 道 
其 中 涉及 的 取舍 。 


= ho 
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其 他 语言 对 继承 的 支持 


“ 面 回 对 象 "这 个 术语 是 Alan Kay 发 明 的 ， 而 Smalltalk 只 支持 单 继承 ， 
不 过 有 些 派生 版 以 不 同 的 方式 支持 多 重 继承 ， 例 如 现代 的 Squeak 和 
Smalltalk 方言 Pharo 支持 性 状 (trait) 这 是 实现 混入 类 的 语言 结 
构 ， 而 且 能 避免 多 重 继承 的 一 些 问 题 。 


C++ 是 第 一 门 实现 多 重 继承 的 流行 语言 ， 但 是 这 一 功能 被 滥用 了 ， 因 此 
意欲 取代 C++ 的 Java 不 支持 多 重 继承 〈 即 没有 混入 类 ) 。 不 过 ，Java8 
引入 了 默认 方法 ， 这 使 得 接口 与 C++ 和 Python 用 于 定义 接口 的 抽象 类 
十 分 相似 。 但 是 它们 之 间 有 个 关键 的 区 别 : Java 的 接口 没有 状态 。Java 
之 后 ， 使 用 最 广泛 的 JVM 语言 要 数 Scala 了 ， 而 它 实现 了 性 状 。 支 持 性 
状 的 其 他 语言 还 有 最 新 稳定 版 PHP 和 Groovy， 以 及 正在 开发 的 Rust 和 
Perl 6。 因 此 可 以 说 ， 性 状 是 目前 的 趋势 。 


Ruby 对 多 重 继承 的 态度 很 明确 : 对 其 不 支持 ， 但 是 引入 了 混入 。Ruby 
类 的 定义 体 中 可 以 包含 模块 ， 这 样 模块 中 定义 的 方法 就 变 成 了 类 实现 的 
一 部 分 。 这 是 “纯粹 ”的 混入 ， 不 涉及 继承 ， 因 此 Ruby 混入 显然 不 会 影 
响 所 在 类 的 类 型 。 这 种 方式 凸显 了 混入 的 优点 ， 避 免 了 很 多 常见 问题 。 


最 近 广 受 瞩目 的 两 门 语言 一 -Go 和 Julia 一 对 继承 的 支持 极其 有 限 。 
Go 完全 不 支持 继承 ， 但 是 它 实现 的 接口 与 静态 鸭子 类 型 相似 (详情 参 
见 第 11 章 的 杂谈") 。Julia 回避 “类 ” (class) 这 个 术语 ， 只 接受 “类 
> (type) 。Julia 有 类 型 层次 结构 ， 但 是 子 类 型 不 能 继承 结构 ， 只 能 继 
承 行为 ， 而 且 只 能 为 抽象 类 型 创建 子 类 型 。 此 外 ，Julia 的 方法 使 用 多 重 
分 派 ， 这 是 7.8.2 节 所 述 机 制 的 高 级 形式 。 


第 13 章 正确 重 载运 算 香 


有 些 事 情 让 我 不 安 ， 比 如 运算 符 重 载 。 我 决定 不 文 持 运算 符 重 载 ， 这 完 
全 是 个 人 选择 ， 因 为 我 见 过 太 多 C++ 程序 员 滥用 它 。! 


James Gosling 
Java 之 父 


1 摘自 “The C Family of Languages: Interview with Dennis Ritchie, Bjarne Stroustrup, and James Gosling” 一 


运算 符 重 载 的 作用 是 让 用 户 定义 的 对 象 使 用 中 缀 运算 符 (如 + 和 |) 或 一 元 
运算 符 (如 - 和 ~) 。 说 得 宽泛 一 些 ， 在 Python P, KAA (O) 、 属 
性 访问 (.) 和 元 素 访 问 /切片 ([]) 也 是 运算 符 ， 不 过 本 章 只 讨论 一 元 运 
算 符 和 中 组 运算 符 。 


在 1.2.1 77, 我们 为 Vector 类 简略 实现 了 几 个 运算 符 。 示 例 1-2 中 的 
_add 和 mul 方法 是 为 了 展示 如 何 使 用 特殊 方法 重 载运 算 符 ， 不 过 
有 些小 问题 被 我 们 忽视 了 。 此 外 ， 在 示例 9-2 中 ， 我 们 定义 的 
Vector2d.__eq__ 方法 认为 Vector(3，4) == [3，4] 是 真 的 
(True) ， 这 可 能 并 不 合理 。 本 章 会 解决 这 些 问题 。 
在 接 下 来 的 几 节 ， 我 们 将 讨论 : 

。 Python 如 何 处 理 中 组 运算 符 中 不 同类 型 的 操作 数 

。 使 用 了 鸭子 类 型 或 显 式 类 型 检查 处 理 不 同类 型 的 操作 数 

。 中 级 运算 从 如 何 表明 上 自己 无 法 处 理 操 作 数 

。 众多 比较 运算 符 (如 ==、>、<=， 等 等 ) 的 特殊 行为 


。 增 量 赋值 运算 符 (如 +=) 的 默认 处 理 方式 和 重 载 方式 


13.1 运算 符 重 载 基础 


在 某 些 圈子 中 ， 运 算 符 重 载 的 名 声 并 不 好 。 这 个 语言 特性 可 能 (已 经 ) 被 小 
用 ， 证 程序 员 困 惑 ， 导 致 缺陷 和 意料 之 外 的 性 能 瓶颈 。 但 是 ， 如 果 使 用 得 


当 ，API 会 变 得 好 用 ， 代 码 会 变 得 易于 阅读 。Python 施加 了 一 些 限 制 ， 做 好 
了 灵活 性 、 可 用 性 和 安全 性 方面 的 平衡 : 


。 不 能 重 载 内 置 类 型 的 运算 符 
不 能 新 建 运算 符 ， 只 能 重 载 现 有 的 


。 某 些 运算 符 不 能 重 载 is > and>or 和 not (不 过 位 运算 符 &、| 和 


~ 可以) 
第 10 章 已 经 为 Vector a 即 ==， 这 个 运算 符 由 
eq_ ”方法 文 持 。 本 章 将 改进 方法 的 实现 ， 更 好 地 处 理 不 是 


Vector 余 例 的 操作 数 。 然 而 ， 直 运算 符 重 才 方 面 ，/ 众多 比较 运算 符 
(==、1=、>、<、>=、<=) 是 特例 ， 因此 我 们 首先 将 在 Vector 中 重 载 四 
个 算术 运算 符 : 一 元 运算 符 - 和 +， 以 及 中 缀 运算 符 + 和 *。 


先 从 最 简单 的 入 手 : 一 元 运算 符 。 


13.2 一 元 运算 符 


在 Python 语言 参考 手册 中 ，“6.5. Unary arithmetic and bitwise operations” 一 节 
< 个 一 元 运算 符 。 下 面 是 这 三 个 运算 符 和 对 应 的 特殊 方法 。 


? 现 有 版 本 是 6.6 他， 而 不 是 6.5 入。 一 一 编者 注 


- (__neg__) 
一 元 取 负 算术 运算 符 。 如 果 X 是 -2, 那么 -x == 20 


+ (__pos__) 


一 元 取 正 算术 运算 符 。 通 常 ，x == +X， 但 也 有 一 些 例外 。 如 果 好 奇 ， 
请 阅读 “x 和 +x 何 时 不 相等 ” 附注 栏 。 


~ ( invert ) 


对 整数 按 位 取 反 ， 定 义 为 ~x == -(x+1)。 如 果 x 是 2， 那 么 ~x == 
-3 ° 


Python 语言 参考 手册 中 的 “Data Model” 一 章 还 把 内 置 的 abs(,..) 
一 元 运算 符 。 它 对 应 的 特殊 方法 是 _ abs_， 从 1.2.1 节 起 已 经 见 


KAY 
i 


支持 一 元 运算 符 很 简单 ， 只 需 实现 相 应 的 特殊 方法 。 这 些 特殊 方法 只 有 一 个 
参数 ，self。 然 后 ， 使 用 符合 所 在 类 的 逻辑 实现 。 不 过 ， 要 遵守 运算 符 的 
一 个 基本 规则 : 始终 返回 一 个 新 对 象 。 也 就 是 说 ， 不 能 修改 self， 要 创建 
并 返回 合适 类 型 的 新 实例 。 


对 - 和 + 来 说 ， 结 果 可 能 是 与 self 同属 一 类 的 实例 。 多 数 时 候 ，+ 最 好 返 
E] self 的 副本 。abs(...) 的 结 且 应 该 征 个 标量 。 但 是 对 ~ 来 说 ， 很 难 
说 什么 结果 是 合理 的 ， 因为 可 能 ` 是 处 理 整 数 的 位 ， 例 如 在 ORM 中 ，SQL 
WHERE 子 句 应 该 返回 反 集 。 


如 前 所 述 ， 我 们 将 为 第 10 章 定义 的 Vector 类 实现 几 个 新 运算 符 。 示 例 13- 
1 列 出 了 示例 10-16 实现 的 abs_ 方法 ， 以 及 新 增加 的 _neg M 


— pos 一 元 运算 符 方 法 。 


示例 13-1 vector_v6.py: 把 一 元 运算 符 - 和 + 添加 到 示例 10-16 中 


def _abs_ (self): 
return math.sqrt(sum(x * x for x in self)) 


def _neg_ (self): 
return Vector(-x for x in self) @ 


def _pos_ (self): 
return Vector(self) @ 


@ 为 了 计算 -vV， 构 建 一 个 新 Vector Lil, self 的 每 个 分 量 都 取 反 。 
@ 为 了 计算 +V， 构 建 一 个 新 Vector 实例 ， 传 入 self 的 各 个 分 量 。 


还 记得 吗 ? Vector 实例 是 可 迭代 的 对 象 ， 而 且 Vector. init _ 的 参 
数 是 一 个 可 迭代 对 象 ， 因 此 __neg M pos _ 的 实现 短小 精 悍 。 


我 们 不 打算 实现 __invert__ 方法 ， 因 此 如 果 用 户 在 Vector 实例 上 尝试 
计算 ~v, Python 会 抛 出 TypeError ， 而 且 输 出 明确 的 错误 消息 , “bad 
operand type for unary ~: 'Vector'”s 


下 述 附 注 栏 讨论 一 个 奇怪 的 问题 ， 能 增长 你 的 + 一 元 运算 符 知 识 。 接 下 来 的 
重要 话题 是 : 重 载 向 量 加 法 运算 符 + ( 见 13.3 节 ) ° 


x 和 +x 何 时 不 相等 


每 个 人 都 觉得 x == +x, MAZE Python 中 ， 几 乎 所 有 情况 下 都 是 这 
样 。 但 是 ， 我 在 标准 库 中 找到 两 例 X != +x 的 情况 。 


第 一 例 与 decimal.Decimal 类 有 关 。 如 果 x 是 Decimal 实例 ， 在 算 
术 运 算 的 上 下 文中 创建 ， 然 后 在 不 同 的 上 下 文中 计算 +x， 那 么 x != 
+X。 例 如 ，x 所 在 的 上 下 文 使 用 某 个 精度 ， 而 计算 +x, MEST, 
如 示例 13-2 所 示 。 


示例 13-2 算术 运算 上 下 文 的 精度 变化 可 能 导致 x 不 等 于 +x 


import decimal 

ctx = decimal.getcontext() @ 

ctx.prec = 40 @ 

one_third = decimal.Decimal('1') / decimal.Decimal('3') © 
>>> one_third @ 
Decimal ('0.3333333333333333333333333333333333333333' ) 


>>> one_third == +one third © 

True 

>>> ctx.prec = 28 © 

>>> one_third == +one third @ 

False 

>>> +one_third © 
Decimal('0.3333333333333333333333333333' ) 


@ 获取 当前 全 局 算术 运算 的 上 下 文 引 用 。 
@@ 把 算术 运算 上 下 文 的 精度 设 为 40。 

© 使 用 当前 精度 计算 1/3 ° 

@ 查看 结果 ， 小 数 点 后 有 40 个 数字 。 


© one_third == +one_third XE] True ° 


O 把 精度 降低 为 28， 这 是 Python 3.4 H Decimal 算术 运算 设 定 的 默认 
精度 。 


@ HÆ, one_third == +one _ third 返回 False。 
© 查看 fone_third， 人 小数 点 后 有 28 个 数字 ° 


虽然 每 个 +one_third 表达 式 都 会 使 用 one_third 的 值 创建 一 个 新 
Decimal 实例 ， 但 是 会 使 用 当前 算术 运算 上 下 文 的 精度 。 


x != +x 的 第 二 例 在 collections .Counter 的 文档 中 。Counter 
类 实现 了 几 个 算术 运算 符 ， 例 如 中 级 运算 符 +， 作 用 是 把 两 个 Counter 
实例 的 计数 器 加 在 一 起 。 然 而 ， 从 实用 角度 出 发 ，Counter 相 加 时 ， 
负 值 和 零 值 计数 会 从 结果 中 剔除 。 而 一 元 运算 符 + 等 同 于 加 上 一 个 空 
Counter， 因 此 它 产 生 一 个 新 的 Counter 且 仅 保留 大 于 零 的 计数 器 。 
见 示 例 13-3 ° 


示例 13-3 一 元 运算 符 + 得 到 一 个 新 Counter 实例 ， 但 是 没有 零 
值 和 负 值 计数 器 3 


>>> ct = Counter('abracadabra' ) 
>>> ct 


Counter({'a': 5, 'b': 2, 'c': 1, 'd': 0, 'r': -3}) 
>>> +ct 
Counter({'a': 5, 'b': 2, 'c': 1}) 


下 面 回归 正题 。 


3 应 该 在 最 前 面 加 一 行 : >>> from collections import Counter ° ”编者 注 


13.3” 重 载 向 量 加 法 运算 符 + 


` Vector 类 是 序列 类 型 ， 按 照 “Data Model" 一 章 中 的 “3.3.6. 
Emulating container type” — Art, Fea iA + 运算 符 (用 于 拼 
fe) ， 以 及 * 运算 符 (用 于 重复 复制 ，。 然 而 ， 我 们 将 使 用 向 量 数 学 运 
算 实 现 + 和 * 运算 符 。 这 么 做 更 难 一 些 ， 但 是 对 Vector 类 型 来 说 更 有 
意义 。 


两 个 欧 几 里 得 向 量 加 在 一 起 得 到 的 是 一 个 新 向 量 ， 它 的 各 个 分 量 是 两 个 向 量 
中 相应 的 分 量 之 和 。 比 如 说 : 


>>> v1 = Vector([3, 4, 5]) 
>>> v2 = Vector([6, 7, 8]) 
>>> v1 + v2 


Vector([9.0, 11.0, 13.0]) 
>>> v1 + v2 == Vector([3+6, 4+7, 5+8]) 
True 


如 采 尝 试 把 两 个 不 同 长 度 的 Vector 实例 加 在 一 起 会 怎样 ? 此 时 可 以 抛 出 错 
误 ， 但 是 根据 实际 运用 情况 (例如 信息 检索 ，， 最 好 使 用 零 填充 较 短 的 那个 
回 量 。 我 们 想 要 的 效果 是 这 样 : 


>>> v1 = Vector([3, 4, 5, 6]) 
>>> v3 = Vector([1, 2]) 

>>> v1 v3 

Vector([4.0, 6.0, 5.0, 6.0]) 


，_ add_ “方法 的 实现 短小 精 悍 ， 如 示例 13-4 所 


Th 


示例 13-4 Vector. add _ 方法 ， 第 1 版 


# 在 Vector 类 中 定义 


def _add_ (self, other): 
pairs = itertools.zip_longest(self, other, fillvalue=0.0) # @ 
return Vector(a + b for a, b in pairs) # @ 


@ pairs 是 个 生成 器 ， 它 会 生成 (a，b) 形式 的 元 组 ， 其 中 aX self, 
b 来自 other。 如 果 self 和 other 的 长 度 不 同 ， 使 用 fillvalue 填充 
较 短 的 那个 可 迭代 对 象 。 


@ 构建 一 个 新 Vector 实例 ， 使 用 生成 器 表达 式 计算 pairs 中 各 个 元 素 的 
和 。 


注意 ， add ”返回 一 个 新 Vector 实例 ， 而 没有 影响 self 或 other。 
全、 实现 一 元 运算 符 和 中 级 运算 符 的 特殊 方法 一 定 不 能 修改 操作 数 o 
使 用 这 些 运算 符 的 表达 式 期 待 结果 是 新 对 象 。 只 有 增 量 赋 值 表 达 式 可 能 
会 修改 第 一 个 操作 数 (self) ， 参 见 13.6 节 ° 


示例 13-4 中 的 实现 方式 可 以 把 Vector 加 到 Vector2d 上 ， 还 可 以 把 
Vector 加 到 元 组 或 任何 生成 数字 的 可 迭代 对 象 上 ， 如 示例 13-5 所 示 。 


示例 13-5 第 1 版 Vector. add ”方法 也 支持 Vector 之 外 的 对 象 


>>> vi = Vector([3, 4, 5]) 
>>> v1 + (10, 20, 30) 
Vector([13.0, 24.0, 35.0]) 


>>> from vector2d_v3 import Vector2d 
>>> v2d = Vector2d(1, 2) 

>>> vi + v2d 

Vector([4.0, 6.0, 5.0]) 


示例 13-5 中 的 两 个 加 法 都 能 如 我 们 所 期 待 的 那样 计算 ， 这 是 因为 add_ 
使 用 了 zip_longest(.,.)， 它 能 处 理 任 何 可 迭代 对 象 ， 而 且 构 建新 
Vector 实例 的 生成 器 表达 式 仅 仅 是 把 zip_longest(...) 生成 的 值 对 相 
加 (a + b) ， 因 此 可 以 使 用 任何 生成 数字 元 素 的 可 和 迭代 对 象 。 


然而 ， 如 果 对 调 操作 数 ( 见 示例 13-6) ， 混 合 类 型 的 加 法 就 会 失败 。 


示例 13-6 ”如 果 左 操作 数 是 Vector 之 外 的 对 象 ， 第 一 版 
Vector. add_ ”方法 无 法 处 理 


>>> v1 = Vector([3, 4, 5]) 
>>> (10, 20, 30) + v1 
Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
TypeError: can only concatenate tuple (not "Vector") to tuple 


>>> from vector2d_v3 import Vector2d 
>>> v2d = Vector2d(1, 2) 
>>> v2d + vi 
Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
TypeError: unsupported operand type(s) for +: 'Vector2d' and 'Vector' 


为 了 文 持 涉 及 不 同类 型 的 运算 ，Python 为 中 绥 运 算 符 特殊 方法 提供 了 特殊 的 
。 对 表达 式 a + b 来 说 ,解释 器 会 执行 以 下 几 步 操作 OLA 13- 
1 o 


(1) 如 果 a 有 add Frye, fi Hig 回 值 不 是 NotImplemented， 调 用 
a. add (b)， 然后 返回 结 


(2) 如 果 a 没 有 __add _ 方法 ， 或 者 调用 __add__ 方法 返回 
NotImplemented, @#b 有 没有 _ radd 方法， 如 果 有 ， 而 且 没 有 返 
[=] NotImplemented, WH b._ radd (a)， 然 后 返回 结果 。 


(3) 如 果 b 没 有 __radd 方法， 或 者 调用 __radd_ 方法 返回 
NotImplemented， 抛 出 TypeError， 并 在 错误 消息 中 指明 操作 数 类 型 不 
支持 。 


获取 a.__add 
__(b) 的 结果 


获取 b.__radd 
_ (a) 的 结果 


NotImple- 
mented[ 吗 ? 


NotImple- 
mented? 


图 13-1: 使 用 _add 和 radd 计算 a + b 的 流程 图 


_radd 是 _add 的 “反射 ”(reflected) 版 本 或 " 反 回 ” (reversed) 版 
本 。 我 喜欢 把 它 叫 作 “ 反 向 ”特殊 方法 。4 本 书 的 三 位 技术 审 校 ，Alex、Anna 
和 Leo 告诉 我 ， 他 们 喜欢 称 之 为 “ 右 向 ” (right) 特殊 方法 ， 因 为 他 们 在 右 操 
作 数 上 调用 。 不 管 你 喜欢 哪个 以 “开头 的 单词 ， radd 和 rsub 
等 类 似 方法 中 的 “7” 就 是 这 个 意思 。 


4 这 两 个 术语 在 Python 文档 中 都 使 用 过 。“Data Model” 一 章 用 的 是 “reflected” (反射 ) ， 而 numbers 


H 


模块 文档 的 S122. Implementing the arithmetic operation” — P H AY “forward” GEW) 方法 
a a ( 反 向 ) 方法 。 我 觉得 后 者 更 好 ， 因 为 “ 正 向 ?和 “ 反 向 ”明确 指出 了 方向 ， 而 “反射 ?就 没 这 
17% 果 o 


因此 ， 为 了 让 示例 13-6 i 类 型 加 法 能 正确 计算 ， 我 们 要 实现 
Vector.__radd_ 方法。 是 一 种 后 备 机 制 ， 如 果 左 操作 数 没有 实现 
”add _ 方法， 或 者 实现 但 是 返回 NotImplemented 表明 它 不 知道 
如 何 处 理 右 操作 数 ， 那 么 Python 会 调用 __radd_ 方法 。 


A ， 

í 别 把 NotImplemented 和 NotImplementedError fai f° 
前 者 是 特殊 的 单 例 值 ， 如 果 中 组 运算 符 特殊 方法 不 能 处 理 给 定 的 操作 
数 ， 那 么 要 把 它 返 回 (return) 给 解释 器 。 而 
NotImplementedError 是 一 种 异常 ， 抽 象 类 中 的 占 位 方法 把 它 抛 出 
(raise) ， 提 醒 子 类 必须 覆盖 。 


最 简 可 用 的 __radd 实现 如 示例 13-7 所 示 。 


示例 13-7 Vector. add 和 radd 方法 


# 在 Vector 类 中 定义 


def _add_ (self, other): # @ 
pairs = itertools.zip_longest(self, other, fillvalue=0.0) 
return Vector(a + b for a, b in pairs) 


def _ radd_ (self, other): #@ 
return self + other 


@ add 方法 与 示例 13-4 中 一 样 ， 没 有 变化 ; 这 里 列 出 ， 是 因为 
radd 要 用 它 。 


© _ radd 直接 委托 _add _ 。 


_ radd “通常 就 这 么 简单 : 直接 调用 适当 的 运算 符 ， 在 这 里 就 是 委托 
_ add_。 任 何 可 交换 的 运算 符 都 能 这 么 做 。 处 理 数 字 和 向 量 时 ，+ 可 以 交 
换 , 但 是 拼接 序列 时 不 行 。 


示例 13-4 中 的 方法 可 以 处 理 Vector 对 象 或 任何 具有 数值 元 素 的 可 迭代 对 
象 ， 例 如 Vector2d 实例 、 整 数 元 组 或 浮 点 数 数组 。 但 是 ， 如 果 提 供 的 对 象 
不 可 和 迭代,， 那 么 add_ _ 就 无 法 处 理 ， 而 且 提 供 的 错误 消息 不 是 很 有 用 ， 
如 示例 13-8 所 示 。 


示例 13-8 Vector. add _ 方法 的 操作 数 要 是 可 迭代 对 象 


>>> v1 + 1 
Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 


File "vector_v6.py", line 328, in __add__ 
pairs = itertools.zip_longest(self, other, fillvalue=0.0) 
TypeError: zip_longest argument #2 must support iteration 


如 果 一 个 操作 数 是 可 迭代 对 象 ， 但 是 它 的 元 素 不 能 与 Vector 中 的 浮 点 数 元 
素 相 加 ， 给 出 的 消息 也 没什么 用 。 如 示例 13-9 所 示 。 


示例 13-9 Vector. add _ 方法 的 操作 数 应 是 可 迭代 的 数值 对 象 


>>> vi + 'ABC' 
Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
File "vector_v6.py", line 329, in __add__ 
return Vector(a + b for a, b in pairs) 
File "vector_v6.py", line 243, in __init__ 
self._components = array(self.typecode, components) 
File "vector_v6.py", line 329, in <genexpr> 
return Vector(a + b for a, b in pairs) 
TypeError: unsupported operand type(s) for +: 'float' and 'str' 


示例 13-8 和 示例 13-9 FH eR AY [A] EE E PRA: 如 果 由 于 类 
型 不 兼容 而 导致 运算 符 特殊 方法 无 法 返回 有 效 的 结果 ， 那 么 应 该 返回 
NotImplemented， 而 不 是 抛 出 TypeError。 返 回 NotImplemented 
另 一 个 操作 数 所 属 的 类 型 还 有 机 会 执行 运算 ， 即 Python 会 尝试 调 用 反 癌 
法 。 
为 了 遵守 鸭子 类 型 精神 ， 我 们 不 能 测试 other 操作 数 的 类 型 ， 或 者 它 的 元 
素 的 类 型 。 我 们 要 捕获 异常 ， 然 后 返回 NotImplemented。 如 果 解 释 器 还 
未 反 转 操作 数 ， 那 么 它 将 党 试 去 做 。 如 果 反 辐 方 法 返回 
NotImplemented, JBA Python 会 抛 出 TypeError， 并 返回 一 个 标准 的 
错误 消息 ， 例 如 “unsupported operand type(s) for +: Vector 
and Str”。 


示例 13-10 是 实现 Vector 加 法 的 特殊 方法 的 最 终 版 。 


示例 13-10 vector_v6.py: + 运算 符 方 法 ， 添 加 到 vector_v5.py ( 见 示例 
10-16) 中 


def _add_ (self, other): 
try: 
pairs = itertools.zip_longest(self, other, fillvalue=0.0) 
return Vector(a + b for a, b in pairs) 
except TypeError: 
return NotImplemented 


def _radd_(self, other): 
return self + other 


Bes AR PAS BTA eS, ARIE TB RFA URAL oH 
TypeError 来 说 ， 通 钊 最 好 将 其 捕获 ， 然 后 返回 NotImplemented ° 
这 样 ， 解 释 需 会 党 试 调用 反 回 运算 符 方 法 ， 如 果 操 作 数 是 不 同 的 类 型 ， 
对 调 之 后 ， 反 同和 运算 符 方法 可 能 会 正确 计算 。 


至 此 ， 我 们 编写 了 add 和 radd 方法， 安全 重 载 了 + 运算 符 。 接 
下 来 实现 另 一 个 中 级 运算 符 : * 。 

13.4 ” 重 载 标量 乘法 运算 符 * 

Vector([1, 2, 3]) * x 是 什么 意思 ? 如 果 x 是 数字 ， 就 是 计算 标量 积 


(scalar product) ， 结 果 是 一 个 新 Vector 实例 ， 各 个 分 量 都 会 乘 以 x 
这 也 叫 元 素 级 乘法 (elementwise multiplication) ° 


>>> v1 = Vector([1, 2, 3]) 
>>> v1 * 10 
Vector([10.0, 20.0, 30.0]) 


>>> 11 * vi 
Vector([11.0, 22.0, 33.0]) 


涉及 Vector 操作 数 的 积 还 有 一 种 ， 叫 两 个 向 量 的 点 积 (dot product) ; 如 
果 把 一 个 向 量 看 作 1xN 和 矩阵， 把 男 一 个 向 量 看 作 Nx1 和 矩阵， 那么 就 是 矩阵 
乘法 。NumpPy 等 库 目前 的 做 法 是 ， 不 重 载 这 两 种 意义 的 *， 只 用 * 计算 标量 
积 。 例 如 ， 在 NumPy 中 ， 点 积 使 用 numpy .dot ( ) 函数 计算 。” 


5 从 Python 3.5 起 ，@ 记号 可 以 用 作 中 缀 点 积 运算 符 。 详 情 参 见 “Python 3.5 新 引入 的 中 缀 运算 符 @” 附 
注 栏 。 


到 标量 积 的 话题 。 我 们 依然 先 实 现 最 简 可 用 的 _ mul _ 和 __rmul A 
法 : 


T] 


# 在 Vector 类 中 定义 


def _mul_ (self, scalar): 
return Vector(n * scalar for n in self) 


def _rmul_(self, scalar): 
return self * scalar 


这 两 个 方法 确实 可 用 ， 但 是 提供 不 兼容 的 操作 数 时 会 出 问题 。scalar 参数 
的 值 要 是 数字 ， 与 浮 点 数 相 乘 得 到 的 积 是 另 一 个 浮上 点数 (AA Vector 类 在 
内 部 使 用 浮 点 数 数组 ) 。 因 此 ， 不 能 使 用 复数 ， 但 可 以 是 int、bool (int 
的 子 类 ) ， 甚 至 fractions.Fraction 实例 等 标量 。 


我 们 可 以 像 示 例 13-10 那样 ， 采 用 鸭子 类 型 技术 ， 在 __mul__ 方法 中 捕获 
TypeError。 但 是 ， 这 个 问题 有 个 更 易于 理解 的 方式 ， 而 且 也 更 合理 : A 
RRA 。 我们 将 使 用 isinstance( ) 检查 scalar 的 类 型 ， 但 是 不 硬 编码 
具体 的 类 型 ， 而 是 检查 numbers .Real 抽象 基 类 。 这 个 抽象 基 类 涵盖 了 我 
们 所 需 的 全 部 类 型 ， 而 且 还 支持 以 后 声明 为 numbers .Real 抽象 基 类 的 真 
实 子 类 或 虚拟 子 类 的 数值 类 型 。 示 例 13-11 展示 了 白 笋 类 型 的 实际 运用 
显 式 检查 抽象 类 型 。 完 整 的 代码 清单 参见 本 书 的 代码 仓库 。 


Ba 你 可 能 还 记得 11.6 Wits, decimal.Decimal 没有 把 自己 注 
th) numbers .Real 的 虚拟 子 类 。 因 此 ，Vector 类 不 会 处 理 


decimal.Decimal 数字 。 


示例 13-11 vector_v7.py: 增加 * 运算 符 方法 


from array import array 
import reprlib 

import math 

import functools 

import operator 

import itertools 

import numbers # @ 


class Vector: 
typecode = 'd' 


def _ init__(self, components): 
self._components = array(self.typecode, components) 


# 排版 需要 ， 省 略 了 很 多 方法 
# Sllhttps://github.com/fluentpython/example-code+#vector_v7.py 


def _mul_ (self, scalar): 
if isinstance(scalar, numbers.Real): # @ 
return Vector(n * scalar for n in self) 
else: #86 
return NotImplemented 


def _ rmul_ (self, scalar): 


return self * scalar # 0 


@ 为 了 检查 类 型 ， 导 入 numbers 模块 。 


@ 如 果 scalar 是 numbers .Real 某 个 子 类 的 实例 ， 用 分 量 的 乘积 创建 一 
个 新 Vector 实例 。 


© 否则 ， 返 回 NotImplemented, it Python 党 试 在 scalar 操作 数 上 调用 
_rmul 方法。 


@ 这里， rmul 方法 只 需 执 行 self * scalar, EH _mul_ F 


法 。 


有 了 示例 13-11 中 的 代码 之 后 ， 我 们 可 以 拿 Vector 实例 乘 以 常规 的 标量 值 
和 不 那么 寻常 的 数字 类 型 了 : 


>>> v1 = Vector([1.0, 2.0, 3.0]) 

>>> 14 * vi 

Vector([14.0, 28.0, 42.0]) 

>>> vi * True 

Vector([1.0, 2.0, 3.0]) 

>>> from fractions import Fraction 

>>> v1 * Fraction(1, 3) 

Vector ([0.3333333333333333, 0.6666666666666666, 1.0]) 


通过 实现 + 和 *， 我 们 讲解 了 编写 中 缀 运算 符 最 常用 的 模式 。+ 和 * 用 的 技 
术 对 表 13-1 中 列 出 的 所 有 运算 符 都 适用 (就 地 运算 符 在 13.6 节 讨 论 ) 。 


en een (就 地 运算 符 用 于 增 量 赋值 ， 比 较 运算 符 在 
13-2 


加 法 或 拼接 


运算 符 | 正 向 方法 | RAK 就 地 方法 


eal =e 
j 整除 的 商 和 模 数 台 
divmod() rdivmod idivmod 由 整除 的 1 和 数 


ilshift__ 按 位 左 移 


irshift__ 按 位 右 移 


* pow 的 第 三 个 参数 modulo 是 可 选 的 : pow(a，b，modu1lo)， 直 接 调用 特殊 方法 时 也 支持 这 个 参 
数 (如 a, pow _(b, modulo)) 。 


# Python 3.5 新 引入 的 。 


众多 比较 运算 符 也 是 一 类 中 缀 运算 符 ， 但 是 规则 稍 有 不 同 。 我 们 将 在 下 一 广 
讨论 众多 比较 运算 符 。 


下 述 附注 栏 介绍 了 Python 3.5 (写作 本 书 时 尚未 发 布 %) 引入 的 @ 运 算 符 ， 选 


6 现 已 发 布 。 一 一 编者 注 
Python 3.5 新 引入 的 中 缀 运算 符 @ 


Python 3.4 没有 为 点 积 提供 中 组 运算 符 。 不 过 ， 写 作 本 书 时 ，Python 3.5 
的 pre-alpha 版 实现 了 “PEP 465 — A dedicated infix operator for matrix 
multiplication”， 提 供 了 点 积 所 需 的 @ 记 号 (例如 , a @ bæ af bH 
点 积 ) 。@ 运算 符 由 特殊 方法 _ matmul__»>__rmatmul__ 和 
__imatmul__ fxi, APRH H “matrix multiplication” (EPER 

法 ) 。 目 前 ， 标 准 库 还 没 用 到 这 些 方法 ， 但 是 Python 3.5 的 解释 器 能 识 
别 ， 因 此 NumPy 团队 〈 以 及 我 们 自己 ) 可 以 在 用 户 定义 的 类 型 中 文 持 
@ 运算 特 。Python 解析 器 也 做 了 修改 ， 能 处 理 中 缀 运算 符 @ (在 Python 
3.4 中，a @ b 是 一 种 句法 错误 ) 。 


为 了 体验 一 下 ， 我 从 源码 编译 了 Python 3.5， 然 后 为 Vector 实现 了 点 
积 运算 符 @， 还 做 了 测试 。 


下 面 古 我 做 的 最 简单 的 测试 : 


Vector([1, 2, 3]) 
Vector([5, 6, 7]) 
vz == 38.0 # 1*5 + 2*6 + 3*7 


20, 30] @ vz 


Traceback (most recent call last): 


TypeError: unsupported operand type(s) for @: 'Vector' and ‘int' 


下 面 是 相应 特殊 方法 的 代码 : 


class Vector: 


# 排版 需要 ， 省 略 了 很 多 方法 


def matmu]l (self, other): 
try: 
return sum(a * b for a, b in zip(self, other)) 
except TypeError: 
return NotImplemented 


def _ rmatmul_ (self, other): 


return self @ other 


完整 的 源码 在 本 书 代 码 仓 库 里 的 vector_py3_5.py 文件 中 。 
记得 要 在 Python 3.5 中 测试 ， 否 则 会 导致 SyntaxError ! 


13.55 ”众多 比较 运算 符 


Python 解释 器 对 众多 比较 运算 符 (==、!=、>、<、>=、<=) 的 处 理 与 前 文 
类 似 ， 不 过 在 两 个 方面 有 重大 区 别 。 


。 正 同和 反问 调用 使 用 的 是 同一 系列 方法 。 ee 13-2 所 示 。 


例如 ， 对 == 来 说 ， = ， 只 是 把 参数 对 
ae 而 正 同 的 __ “方法 调用 的 是 反 辣 的 _ 方法 ， 并 把 参数 
对 调 。 


。 对 == 和 1!= 来 说 ， 如 果 反 向 调用 失败 ，Python 会 比较 对 象 的 ID ， 而 不 
抛 出 TypeError 。 


众多 比较 运算 符 : 正 向 方法 返回 NotImplemented 的 话 ， 调 用 反 向 


ee en ree 
he fae [eee 
[fe pe fae fone 


WH TypeError 


好 出 TypeError 


` Python 3 的 新 行为 


Python 2 之 后 的 比较 运算 符 后 备 机 制 都 变 了 。 对 于 ne__， 现 在 
Python 3 返回 结果 是 对 eq ”结果 的 取 反 。 对 于 排序 比较 运算 符 
Python 3 抛 出 “天 把 错误 消息 设 为 'unorderable 
types: int() < tuple()'"。 在 Python 2 中， 这些 比较 的 结果 很 怪 
异 ， 会 考虑 对 象 的 类 型 和 ID， 而 且 无 规律 可 循 。 然 而 ， 比 较 整 数 和 元 组 


确实 没有 意义 ， 因 此 此 时 抛 出 TypeError 是 这 门 语言 的 一 大 进步 。 


了 解 这 些 规则 之 后 ， 我 们 来 分 析 并 改进 Vector. eq 方法 的 行为 。 这 个 
方法 在 vector_v5. 有 中 是 这 样 定义 的 : 


class Vector: 
# 省 略 了 很 多 行 


def _eq_ (self, other): 
return (len(self) == len(other) and 
all(a == b for a, b in zip(self, other))) 


这 个 方法 的 行为 如 示例 13-12 所 示 。 


示例 13-12 Vector 实例 与 Vector 实例 、Vector2d 实例 和 元 组 比 
较 


>>> va = Vector([1.0, 2.0, 3.0]) 

>>> vb = Vector(range(1, 4)) 

>>> va == vb #@ 

True 

>>> vc = Vector([1, 2]) 

>>> from vector2d_v3 import Vector2d 


>>> v2d = Vector2d(1, 2) 
>>> VC == v2d #@ 

True 

>>> t3 = (1, 2, 3) 

>>> va = t3 # © 

True 


@ 两 个 具有 相同 数值 分 量 的 Vector 实例 是 相等 的 。 


@ 如 条 Vector 实例 的 分 量 与 Vector2d 实例 的 分 量 都 相等 ， 那 么 两 个 实 
例 相等 。 


“实际 运行 时 会 抛 出 异常 : TypeError: object of type 'Vector2d' has no len(), AW 


Vector2d 没有 实现 __len__ 特殊 方法 。 如 果 改 为 vc == set(v2d) WARE] True。 一 编者 
注 

© Vector 实例 的 分 量 与 元 组 或 其 他 任何 可 迭代 对 象 的 元 素 相 等 ， 那 么 对 象 
也 相等 。 


示例 13-12 中 的 最 后 一 个 结果 可 能 不 是 很 理想 。 我 对 这 一 点 没有 强制 规则 ， 
要 由 应 用 上 下 文 决定 。 不 过 ,，“Python 之 禅 "说 道 : 


如 采 存 在 多 种 可 能 ， 不 要 猜测 。 
对 操作 数 过 度 宽容 可 能 导致 令 人 惊讶 的 结果 ， 而 程序 员 讨厌 惊喜 。 
从 Python 目 身 来 找 线索 ， 我 们 发 现 [1, 2] == (1, 2) 的 结果 是 False 。 
因此 ， 我 们 要 保守 一 扎 ， 做 些 类 型 检查 。 me oo Vector a 


(或 者 Vector 子 类 的 实例 ) ， 那 么 就 使 用 _ 方法 的 当前 逻辑 。 
WW, 返回 NotImplemented， 让 Python 处 理 。 参 页 示例 13-13 ° 


N 


示例 13-13 vector_v8.py: 改进 Vector 类 的 eq_ ”方法 


def _eq_(self, other): 
if isinstance(other, Vector): @ 
return (len(self) == len(other) and 


all(a == b for a, b in zip(self, other))) 
else: 


return NotImplemented @ 


@ 如 果 other 操作 数 是 Vector 实例 (或 者 Vector 子 类 的 实例 ) ， 那 就 
像 之 前 那样 比较 。 


@ 否则 ， 返 回 NotImplemented。 


如 果 使 用 示例 13-13 PAIX Vector. eq _ 方法 运行 示例 13-12 中 的 测 
试 ， 得 到 的 结果 如 示例 13-14 所 示 。 


示例 13-14 与 示例 13-12 一 样 的 测试 : 最 后 一 个 结果 变 了 


>>> va = Vector([1.0, 2.0, 3.0]) 
>>> vb = Vector(range(1, 4)) 

>>> va == vb #@ 

True 


>>> vc = Vector([1, 2]) 


>>> from vector2d_v3 import Vector2d 
>>> v2d = Vector2d(1, 2) 
>>> vc == v2d #@ 


True 
>>> t3 = (1, 2, 3) 
>>> va == t3 #6 
False 


@ 结果 与 之 前 一 样 ， 与 预期 相符 。 
@ 结果 与 之 前 一 样 ， 但 是 为 什么 呢 ? 稍 后 解释 。3 


8 这 次 不 抛 出 异常 ， 而 是 返回 True。 请 参阅 前 一 个 编者 注 。 编者 注 


© 结果 不 同 了 ， 这 才 是 我 们 想 要 的 。 但 是 为 什么 会 这 样 ? 请 往 下 读 .…… 

在 示例 13-14 中 的 三 个 结果 里 ， 第 一 个 没 变 ， 但 是 后 两 个 变 了 ， 这 是 因为 示 
例 13-13 中 的 __eq 方法 返回 了 NotImplemented ° Vector 实例 与 
Vector2d 实例 比较 时 ， 具 体 步骤 如 下 。 


(1) 为 了 计算 vc == v2d, Python 调用 Vector. _eq__(vc, v2d) ° 


(2) 28 Vector.__eq__(vc, v2d) 确认 ，v2d 不 是 Vector 实例 ， 因 此 返 
E] NotImplemented ° 


(3) Python 得 到 NotImplemented 结果 ， 党 试 调用 
Vector2d. eq (v2d, vc) ° 


(4) Vector2d.__eq__(v2d, vc) 把 两 个 操作 数 都 变 成 元 组 ， 然 后 比较 ， 
结果 是 True (Vector2d. eq _ 方法 的 代码 在 示例 9-9 中 ) 。 


在 示例 13-14 F, Vector 实例 和 元 组 比较 时 ， 具 体 步 骤 如 下 。 


(1) 为 了 计算 va == t3, Python 调用 Vector .eq_ (va，t3) 。 


(2) 2 Vector.__eq__(va, t3) 确认 ，t3 不 是 Vector 实例 ， 因 此 返回 
NotImplemented ° 


(3) Python 得 到 NotImplemented 结果 ， 党 试 调用 tuple, eq_ (t3, 
va) ° 


(4) tuple.__eq__(t3, va) 不 知道 Vector 是 什么 ， 因 此 返回 
NotImplemented ° 


(5) 对 == 来 说 ， 如 果 反 向 调用 返回 NotImplemented, Python 会 比较 对 象 
的 ID， 作 最 后 一 搏 。 


那么 != 运算 符 呢 ? 我 们 不 用 实现 它 ， 因 为 从 object 继承 的 _ne_ 方法 
的 后 备 行为 满足 了 我 们 的 需求 : 定义 了 eq 方法 ， 而 且 它 不 返回 
NotImplemented, _ ne 会 对 _eq_ 返回 的 结果 取 反 。 


也 就 是 说 ， 对 示例 13-14 中 的 对 象 来 说 ， 使 用 != 运算 符 比 较 的 结果 是 一 至 
的 : 


>>> va != vb 


M object PARAM ne 方法， 运作 方式 与 下 述 代 码 类 似 ， 不 过 原版 是 
AC 语言 实现 的 : 9 


90bject. eq M object. ne _ 的 逻辑 在 object_richcompare 画 数 中 ， 位 于 CPython 
源码 的 Objects/typeobject.c 文件 


o 


def _ne_ (self, other): 
eq_result = self == other 
if eq_result is NotImplemented: 
return NotImplemented 


else: 
return not eq_result 


Be Python 3 文档 的 缺陷 了 2 


写作 本 书 时 ， 众 多 比较 方法 的 文档 
(https://docs.python.org/3/reference/datamodel. html) 说 : “x==y 成 立 不 
代表 x!=y 不 成 立 。 据 此 ， 如 果 定 义 eq _( ) 方法 ， 也 要 定义 
__ne () 方 法， 这 样 运算 符 的 行为 才能 符合 预期 。” 对 Python 2 来 
说 ， 确 实 是 这 样 。 但 对 Python 3 而 言 ， 这 不 是 好 的 建议 ， 因 为 从 
object 类 继承 的 __ne “实现 够 用 了 ， 几 乎 不 用 重 载 。Guido 在 他 写 
的 “What's New in Python 3.0” 一 文中 说 明了 这 个 新 行为 ， 在 “Operators 
And Special Methods” 一 节 中 。 文 档 的 这 个 缺陷 在 issue 4395 中 做 了 记 


o 


1 这 个 缺陷 现在 已 经 修正 了 。 编者 注 


讨论 完 重要 的 中 缀 运算 符 重 载 之 后 ， 下 面 换 一 类 运算 符 ， 增 量 赋值 运算 符 。 
13.6 ” 增 量 赋值 运算 符 


Vector 类 已 经 支持 增 量 赋值 运算 符 += 和 *= 了 ， 如 示例 13-15 所 示 。 


13-15 ” 增 量 赋值 不 会 修改 不 可 变 目 标 ， 而 是 新 建 实例 ， 然 后 重新 
绑 定 


>>> vi = Vector([1, 2, 3]) 
>>> vi_alias = vi # @ 
>>> id(v1) #90 
4302860128 

>>> v1 += Vector([4, 5, 6]) #9 
>>> vl #0 

Vector([5.0, 7.0, 9.0]) 
>>> id(v1) #9 
4302859904 

>>> vi_alias # @ 
Vector([1.0, 2.0, 3.0]) 
>>> v1 *= 11 #0 

>>> vl #80 

Vector([55.0, 77.0, 99.0]) 
>>> id(v1) 

4302858336 


@ 复制 一 份 ， 供 后 面 审查 Vector([1，2，3]) 对 象 。 


@ 记 住 一 开始 绑 定 给 v1 的 Vector 实例 的 ID。 


© 增 量 加 法 运算 。 

@ 结果 与 预期 相符 .…… 

日 .……. 但 是 创建 了 新 的 Vector 实例 。 

O 审查 v1_alias， 确 认 原 来 的 Vector 实例 没 被 修改 。 


@@ 增 量 乘法 运算 。 


@ 同样 ， 结 果 与 预期 相符 ， 但 是 创建 了 新 的 Vector 实例 。 


如 采 一 个 类 没有 实现 表 13-1 列 出 的 就 地 运算 符 ， 增 量 赋值 运算 符 只 是 语法 
te: a t= b 的 作用 与 a = a + b 完全 一 样 。 对 不 可 变 类 型 来 说 ， 这 有 征 预 
期 的 行为 ， 而 且 ， 如 果 定 义 了 add 方法 的 话 ， 不 用 编写 额外 的 代码 ， 

+= 束 能 使 用 。 


然而 ， 如 果实 现 了 就 地 运算 符 方 法 ,例如 __iadd ， 计算 a += b 的 结果 
时 会 调用 就 地 运算 符 方 法 。 这 种 运算 符 的 名 称 表 明 ， 它 们 会 就 地 修改 左 操作 
数 ， 而 不 会 创建 新 对 象 作 为 结果 。 


Be 不 可 变 类 型 ， 如 Vector 类 ， 一 定 不 能 实现 就 地 特殊 方法 。 这 有 是 
明显 的 事实 ， 不 过 还 是 值得 提出 来 。 


为 了 展示 如 何 实 现 就 地 运算 符 ， 我 们 将 扩展 示例 11-12 中 的 BingoCage 
X, 实现 ”add 和 iadd 方法 。 


我 们 把 子 类 命名 为 AddableBingoCage。 示 例 13-16 是 我 们 想 让 + 运算 符 
具有 的 行为 。 


示例 13-16 使 用 + 运算 符 新 建 AddableBingoCage 实例 


>>> vowels = 'AEIOU' 

>>> globe = AddableBingoCage(vowels) @ 
>>> globe.inspect() 

(‘A', ‘ET, "IT"; ‘O', "U') 

>>> globe.pick() in vowels @ 

True 

>>> len(globe.inspect()) © 

4 

>>> globe2 = AddableBingoCage('XYZ') @ 
>>> globe3 = globe + globe2 

>>> len(globe3.inspect()) © 

7 


>>> void = globe + [10, 20] © 
Traceback (most recent call last): 


TypeError: unsupported operand type(s) for +: 'AddableBingoCage' and 
‘list! 


@ 使 用 5 个 元 素 (vowels 中 的 各 个 字母 ) 创建 一 个 globe 实例 。 
@ 从 中 取出 一 个 元 素 ， 确 认 它 在 vowels 中 。 
© 确认 globe 的 元 素数 量 减少 到 4 个 了 。 


@ 创建 第 二 个 实例 ， 它 有 3 个 元 素 。 
O 把 前 两 个 实例 加 在 一 起 ， 创 建 第 3 个 实例 。 这 个 实例 有 7 个 元 素 。 


© AddableBingoCage 实例 无 法 与 列表 相 加 ， 抛 出 TypeError。 那 个 销 
误 消息 是 __add__ 方法 返回 Not Implemented 时 Python 解释 器 输出 的 。 


AddableBingoCage 是 可 变 的 ， SH iadd_ 方法 后 的 行为 如 示例 13- 
17 所 示 。 


示例 13-17 可 以 使 用 += 运算 符 载 入 现 有 的 AddableBingocage 实 
例 (接续 示例 13-16) 


>>> globe_orig = globe @ 
>>> len(globe.inspect()) @ 
4 

>>> globe += globe2 © 

>>> len(globe.inspect()) 

7 

>>> globe += ['M', 'N'] 9 
>>> len(globe.inspect()) 

9 

>>> globe is globe orig © 
True 

>>> globe t= 1 © 
Traceback (most recent call last): 


TypeError: right operand in += must be 'AddableBingoCage' or an iterable 


@ 复制 一 份 ， 供 后 面 检查 对 象 的 标识 。 

@ 现在 globe 有 4 个 元 素 。 

© AddableBingoCage 实例 可 以 从 同属 一 类 的 其 他 实例 那里 接受 元 素 。 
O += 的 右 操作 数 也 可 以 是 任何 可 迭代 对 象 。 

O 在 这 个 示例 中 ，globe 始终 指 代 globe_orig WR ° 


© AddableBingoCage 实例 不 能 与 非 可 从 代 对 象 相 加 ， 错 误 消 息 会 指明 原 


注意 ， 与 + 相 比 ，+= 运算 符 对 第 二 个 操作 数 更 宽容 。+ 运算 符 的 两 个 操作 
数 必须 是 相同 类 型 (这 里 是 AddableBingoCage) ， 如 若 不 然 ， 结 果 的 类 


型 可 能 让 人 摸 不 着 头脑 。 而 += 的 情况 更 明确 ， 因 为 台地 修改 左 操作 数 ， 所 
以 结 末 的 类 型 是 确定 的 。 


A 通过 观察 内 置 list 类 型 的 工作 方式 ， 我 确定 了 要 对 + 和 += 的 行 
为 做 什么 限制 。my_list + x 只 能 用 于 把 两 个 列表 加 到 一 起 ， 而 
my_list += X 可 以 使 用 右边 可 迭代 对 象 x 中 的 元 素 扩 展 左 边 的 列 
.extend() TAH eI, EAR Deter IAL 
WE o 


我 们 明确 了 AddableBingoCage 的 行为 ， 下 面 来 看 实现 方式 ， 如 示例 13- 
18 所 示 。 


示例 13-18 bingoaddable.py: AddableBingoCage 扩展 
BingoCage, “fF + 和 += 


import itertools @ 


from tombola import Tombola 
from bingo import BingoCage 


class AddableBingoCage(BingoCage): @ 


def _add_ (self, other): 
if isinstance(other, Tombola): © 
return AddableBingoCage(self.inspect() + other.inspect()) @ 
else: 
return NotImplemented 


def _iadd (self, other): 
if isinstance(other, Tombola): 
other_iterable = other.inspect() © 
else: 
try: 
other_iterable = iter(other) 
except TypeError: © 
self_cls = type(self).__name__ 
msg = "right operand in += must be {!r} or an iterable" 
raise TypeError(msg.format(self_cls) ) 
self.load(other_iterable) @ 
return self © 


@ “PEP 8 一 Style Guide for Python Code” 建 议 ， 把 导入 标准 库 的 语句 放 在 导入 
自己 编写 的 模块 之 前 。 


@AddableBingocage 扩 展 BingoCage ° 
© add 方法 的 第 二 个 操作 数 只 能 是 Tombola 实例 。 
O 如 果 other 是 Tombola 实例 ， 从 中 获取 元 素 。 

和 否则， 尝试 使 用 other 创建 迭代 器 。11 


UNEA iter 画 数 在 下 一 章 讨论 。 这 里 ， 本 可 以 使 用 tuple(other )， 这 样 做 是 可 以 的 ， 但 是 
.1oad( , . , ) 方法 迭代 参数 时 要 构建 大 量 元 组 ， 资 源 消耗 大 。 


NS 


@ 如 末 涯 试 失败 ， 抛 出 异常 ， 并 且 告 知 用 户 该 怎么 做 。 如 采 可 能 ， 错 误 消 筷 
应 该 明确 指导 用 户 怎么 解决 问题 。 


@ 如 果 能 执行 到 这 里 ， 把 other_iterable #A self ° 
O 重要 提醒 : 增 量 赋值 特殊 方法 必须 返回 self e 


通过 示例 13-18 中 add 和 iadd 返回 结果 的 方式 可 以 总 结 出 就 地 
运算 符 的 原理 。 


__add__ 

Val FA AddableBingoCage 构造 方法 构建 一 个 新 实例 ， 作 为 结果 返回 。 
__iadd__ 

把 修改 后 的 self 作为 结果 返回 。 


最 后 ， 示 例 13-18 ”中 还 有 一 点 要 注意 : Mait kA, AddableBingoCage 
不 用 定义 radd_ 方法， 因为 不 需要 。 如 果 右 操作 数 是 相同 类 型 ， 那 么 正 
向 方法 __add__ 会 处 理 ， 因 此 ，Python 计算 a + b 时 ， 如 果 a 是 
AddableBingoCage 实例 ， 而 b 不 是 ， 那 么 会 返回 NotImplemented, 
此 时 或 许可 以 让 b 所 属 的 类 接手 处 理 。 可 是 ， 如 果 表 达 式 是 b + a, 而 b 
不 是 AddableBingocage 实例 ， 返 回 了 NotImplemented, #8 Python 
最 好 放弃 ， 抛 出 TypeError， 因 为 无 法 处 理 b。 


A 一 般 来 说 ， 如 采 中 级 运算 符 的 正 向 方法 (如 __mul ) 只 处 理 与 
self 属于 同一 类 型 的 操作 数 ， 那 就 无 需 实现 对 应 的 反 回 方法 (如 


__rmul ) ， 因 为 按照 定义 ， 反 向 方法 是 为 了 处 理 类 型 不 同 的 操作 


我 们 对 Python 运算 符 重 载 的 讨论 到 此 结束 。 


13.7 ”本章 小 结 


本 章 首 先 说 明了 Python 对 运算 符 重 载 施加 的 一 些 限制 禁止 重 载 内 置 类 型 的 
eae 而 且 限于 重 载 现 有 的 运算 符 ， 不 过 有 几 个 例外 (is > and > or > 
not) ° 


随后 ， 本 章 讲 解 了 如 何 重 载 一 元 运算 符 ， 并 实现 了 neg 和 _pos 
方法 。 接 着 重 载 中 级 运算 符 ， 首 先是 +， 它 由 __add_ ”方法 提供 支持。 我 
们 得 知 ， 一 元 运算 符 和 中 组 运算 符 的 结果 应 该 是 新 对 象 ， 并 且 绝 不 能 修改 操 
作 数 。 为 了 支持 其 他 类 型 ， 我 们 返回 特殊 的 NotImplemented 值 (不 是 异 
fe) ， 让 解释 器 党 试 对 调 操作 数 ， 然 后 调用 运算 符 的 反 向 特殊 方法 (如 
__radd__) ° K| 13-1 中 的 流程 图 概述 了 Python 处 理 中 级 运算 符 的 算法 。 


如 有 果 操 作 数 的 类 型 不 同 ， 我 们 要 检测 出 不 能 处 理 的 操作 数 。 本 章 使 用 两 种 方 
式 处 理 这 个 问题 : 一 种 是 鸭子 类 型 ， 直接 党 试 执行 运算 ， 如 果 有 问题 ， 捕 获 
TypeError 异常 ， 男 一 种 是 显 式 使 用 ijsinstance 测试 ，， mul _ 方法 
就 是 这 么 做 的 。 这 两 种 方式 各 有 优 缺 点 : 鸭子 类 型 更 灵活 ， 但 是 显 式 检查 更 
能 预知 结果 。 如 果 选 择 使 用 isinstance， 要 小 心 ， 不 能 测试 具体 类 ， 而 要 
测试 numbers .Real 抽象 基 类 ， 例 如 isinstance(scalar, 

numbers .Real)。 这 在 灵活 性 和 安全 性 之 间 做 了 很 好 的 折 中 ， 因 为 当前 或 
ARR ES FEI E SETS AT CA FS ATTRA SHEER REIT, 详情 参 
SLES 11 章 。 


接 下 来 的 话题 是 众多 比较 运算 符 。 a = PSNT ==, WHE 
发 现 Python 在 object 基 类 中 通过 __ SBN = 提供 了 便利 的 实现 。 


Python 处 理 这 些 运算 符 的 方式 与 >、<、>= 和 <= 稍 有 不 同 ， 具 体 而 言 是 选 
择 反 向 方法 的 逻辑 不 同 ， 此 外 Python 还 会 特别 处 理 == 和 != 的 后 备 机 制 : 
从 不 抛 出 错误 ， 因 为 Python 会 比较 对 象 的 ID， 作 了 最 后 一 搏 。 


后 一 市 专门 讨论 了 增 量 赋值 运算 符 。 我 们 发 现 ，Python 处 理 这 种 运算 符 的 
ae 它们 当 作 常规 的 运算 符 加 上 赋值 操作 ， 即 a += b 其 实 会 当成 a = = 
a + b 处 理 。 这 样 会 始终 创建 新 对 象 ， 因 此 可 变 类 型 和 不 可 变 类 型 都 能 
对 可 变 对 象 来 说 ， 可 以 实现 就 地 特殊 方法 ， 例 如 支持 += 的 iadd ^ 
法 ， 然 后 修改 左 操作 数 的 值 。 为 了 举例 说 明 ， 我 们 把 不 可 变 的 Vector 类 放 
到 一 边 ， A BingoCage 的 子 类 实现 了 += 运算 符 ， 它 会 把 元 素 添 加 到 随机 


选号 池 中 ， 这 与 内 置 的 1ist 类 型 把 += 当成 list .extend( ) 方法 的 快捷 
方式 类 似 。 在 实现 的 过 程 中 ， 我 们 得 知 在 可 接受 的 类 型 方面 ，+ 应 该 比 += 
严格 。 对 序列 类 型 来 说 ，+ 通常 要 求 两 个 操作 数 属 于 同一 类 型 ， 而 += 的 右 
操作 数 往往 可 以 是 任何 可 迭代 对 象 。 


13.8 ”延伸 阅读 


在 Python 编程 中 ， 运 算 符 重 载 经 常 使 用 isinstance 做 测试 。 一 般 来 说 ， 

库 应 该 利用 动态 类 型 (提高 灵活 性 ) ， 和 避免 显 式 测试 类 型 ， 而 是 直接 尝试 操 
作 ， 然 后 处 理 异 常 ， 这 样 只 要 对 象 支 持 所 需 的 操作 即 可 ， 而 不 必 一 定 是 某 种 
类 型 。 但 是 ，Python 抽象 基 类 允许 一 种 更 为 严格 的 鸭子 类 型 Alex Martelli 
称 之 为 “ 白 鹅 类 型 "*， 编 写 重 载运 算 符 的 代码 时 经 常 能 用 到 。 因 此 ， 如 果 你 跳 
过 了 第 11 章 ， 一定 要 去 读 读 。 


运算 符 特 殊 方法 的 主要 参考 资料 是 “Data Model” 一 章 。 这 是 权威 资料 ， 不 过 
如 “Python 3 文档 的 缺陷 ”所 述 ， 现 在 有 个 明显 的 缺陷 ，? 即 建议 “如 果 定 义 
eq _() 方 法 ， 同 时 也 要 定义 __ne __() 方 法”。 实 际 上 ， 在 Python 3 
中 ， 继 承 目 object 类 的 __ne__ 方法 能 满足 绝 大 多 数 需 求 ， 因 此 一 般 很 少 
实现 __ne__ 方法 。Python 标准 库 中 numbers 模块 文档 的 “9.1.2.2. 
Implementing the arithmetic operations” 一 也 值得 一 读 。 


2 这 个 缺陷 现在 已 经 修正 了 。 一 一 编者 注 


与 之 相关 的 一 个 技术 是 泛 函 数 ， 由 Python 3 的 @singledispatch 装饰 器 
支持 (参见 7.8.2 77) 。 在 David Beazley 4 Brian K. Jones 的 著作 《Python 
Cookbook (第 3 版 ， 中 文 版 》 中 ,，“9.20 通过 函 数 注解 来 实现 方法 重 载 ?秘笈 
使 用 一 些 高 级 元 编程 (涉及 元 类 ) 通过 函数 注解 实现 了 基于 类 型 的 分 派 。 
Martelli Ravenscroft 与 Ascher 的 《Python Cookbook ( 2 版 ) 中 文 版 》 一 
书 有 个 有 趣 的 诀 穿 (2.13 节 ，Erik Max Francis 提供 ) ， 展 示 了 如 何 重 载 << 
运算 符 ， 在 Python 中 模仿 C++ 的 iostream 句法 。 这 两 本 书 中 还 有 一 些 其 
他 关于 运算 符 重 载 的 示例 ， 我 只 提 了 两 个 重要 的 诀 穹 。 


functools.total_ordering 函数 是 个 类 装饰 器 (Python 2.7 及 以 上 版 本 
可 用 ) ， 它 能 为 只 定义 了 几 个 比较 运算 符 的 类 目 动 生成 全 部 比较 运算 符 。 请 
参阅 Functools 模块 的 文档 。 


如 果 你 对 动态 类 型 语言 的 运算 符 方 法 分 派 机 制 感 兴趣 ， 推 荐 阅读 两 篇 具有 重 
大 意义 的 论文 : Dan Ingalls (Smalltalk 团队 的 创始 成 员 ) 写 的 “A Simple 
Technique for Handling Multiple Polymorphism”, LAK Kurt J. Hebel 与 Ralph 
Johnson (Johnson 是 《设计 模式 : 可 复 用 面向 对 象 软件 的 基础 》 的 作者 之 


一 ， 因 此 出 了 名 ) 合 写 的 “Arithmetic and Double Dispatching in Smalltalk- 
80”。 这 两 篇 论文 深入 分 析 了 动态 类 型 语言 (如 Smalltalk ` Python 和 Ruby) 
的 多 态 。 


Python 没有 使 用 这 两 篇 论文 中 所 壕 的 双重 分 配 处 理 运算 从。Python 使 用 的 正 
癌 运 算 符 和 反问 运算 符 更 便于 用 户 定 义 的 类 文 持 双重 分 派 ， 但 是 这 种 方式 需 
要 解释 器 做 些 特殊 处 理 。 与 之 相 比 ， 经 典 的 双重 分 派 是 一 般 性 的 技术 ， 
Python 和 任何 面向 对 象 语言 都 能 使 用 ， 而 且 不 止 适 用 于 中 组 运算 符 。 其 实 ， 
Ingalls ` Hebel 和 Johnson 描述 双重 分 派 使 用 的 示例 完全 不 同 。 


本 章 开 篇 引用 的 那 段 话 ， 以 及 “杂谈 ”中 引用 的 两 段 话 ， 均 出 自 “The C Family 
of Languages: Interview with Dennis Ritchie, Bjarne Stroustrup, and James 
Gosling” 一 文 ， 刊 登 于 Java Report, 5(7), July 2000 和 C++ Report, 12(7)， 
July/August 2000 上 “。 如 采 你 对 编程 语言 设计 感 兴趣 ， 那 么 这 篇 文章 非常 值得 
一 读 。 


杂谈 
运算 符 重 载 的 优 缺点 


如 本 草 开 头 引 用 的 那 段 话 所 述 ，James Gosling 决定 不 让 Java 支持 运算 
符 重 载 。 在 那 次 访谈 中 (“The C Family of Languages: Interview with 
Dennis Ritchie, Bjarne Stroustrup, and James Gosling”) ， 他 说 : 


KEY 20% 到 30% WA ot ie A BESET ZR; AH AEE 
符 的 重 载 郑 经 了 很 多 人 ， 因 为 他 们 使 用 + 做 列表 插入 ， 导 致 生活 一 
团 糟 。 这 类 问题 大 都 源 于 一 个 事实 : 世界 上 有 成 千 上 万 个 运算 符 ， 
但 是 只 有 少数 几 个 适合 重 载 。 因此， 我 们 要 挑选 ， 但 是 有 时 所 作 的 
决定 违背 直觉 。 


Guido van Rossum 为 运算 符 重 载 采取 了 一 种 折 中 方式 不 放任 用 户 随 意 
创建 运算 符 ， 如 <=> 或 : - )， 这 样 防止 了 用 户 对 运算 符 的 异想天开 ， 
而 且 能 让 Python 解析 器 保持 简单 。 此 外 ，Python 还 禁止 重 载 内 置 类 型 
的 运算 符 ， 这 个 限制 也 能 增强 可 读 性 和 可 预知 的 性 能 。 


Gosling 接着 说 道 : 


社区 中 约 有 10% 的 人 能 正确 地 使 用 和 真正 关心 运算 符 重 载 ， 对 这 些 
人 来 说 ， 运 算 符 重 载 是 极其 重要 的 。 这 部 分 人 几乎 专门 处 理 数 字 ， 
在 这 一 领域 中 ， 为 了 符合 人 类 的 直觉 ， 表 示 法 特别 重要 ， 因 为 他 们 
进入 这 一 领域 时 ， 直 觉 中 已 经 知道 + 的 意思 ， 他 们 知道 “aa + b” 中 的 
a FI b 可 以 是 复数 、 和 矩阵 或 其 他 合理 的 东西 。 


表示 法 方面 的 问题 不 能 低 佑 。 下 面 以 金融 领域 为 例 说 明 。 在 Python 中 ， 
可 以 使 用 下 述 公式 计算 复 利 : 


interest = principal * ((1 + rate) ** periods - 1) 


不 管 涉 及 什么 数字 类 型 ， 这 种 表示 法 都 成 立 。 因 此 ， 如 果 是 做 重要 的 金 
融 工 作 ， 你 要 确保 periods 是 整数 ，rate、interest 和 
principal 是 精确 的 数字 (Python 中 decimal.Decimal 类 的 实 

例 ) ， 这 样 上 述 公 式 就 能 完好 运行 。 


但 是 在 Java 中 ， 如 果 把 float RRENEN BigDecimal, WEI 
再 使 用 中 级 运算 符 ， 因 为 中 级 运算 符 只 支持 基本 类 型 。 在 Java 中 ， 支 持 
BigDecimal 数字 的 公式 要 这 样 写 : 


BigDecimal interest = principal.multiply(BigDecimal.ONE.add(rate) 


.pow(periods).subtract(BigDecimal.ONE)); 


显然 ， 使 用 中 缀 运 算 符 的 公式 更 易 读 ， 至 少 对 大 多 数 人 来 说 如 此 。 卫 为 
了 让 中 绥 运 算 符 表示 法 文 持 非 基 本 类 型 ， 运 算 符 必须 能 重 载 。Python 是 
门 高 级 语言 ， 易 于 使 用 ， 文 持 运算 符 重 载 可 能 就 是 它 这 些 年 在 科学 计算 
领域 得 到 广泛 使 用 的 主要 原因 。 

当然 ， 语 言 不 支持 运算 符 重 载 也 有 好 处 。 对 极为 重视 性 能 和 安全 的 低级 
系统 语言 而 言 ， 这 无 疑 古 正确 的 决定 。 新 近 出 现 的 Go 语言 在 这 方面 效 
仿 了 Java， 它 不 文 持 运算 符 重 载 。 


但 是 ， 重 载 的 运算 符 ， 如 果 使 用 得 当 ， 的 确 能 让 代码 更 易于 阅读 和 编 
写 。 对 现代 的 高 级 语言 来 说 ， 这 是 个 好 功能 。 


惰性 计算 一 向 


如 采 仔 细 看 示例 13-9 中 的 调用 跟 蹊 ， 会 发 现 生成 器 表达 式 做 惰性 计算 的 
证 据 。 示 例 13-19 再 次 列 出 那些 调用 跟踪 ， 不 过 加 上 了 一 些 标注 。 


示例 13-19 与 示例 13-9 一 样 


>>> vi + 'ABC' 


Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
File "vector_v6.py", line 329, in _ add _ 
return Vector(a + b for a, b in pairs) # @ 


File "vector_v6.py", line 243, in __init__ 

self. _components = array(self.typecode, components) # @ 
File "vector_v6.py", line 329, in <genexpr> 

return Vector(a + b for a, b in pairs) # © 
TypeError: unsupported operand type(s) for +: 'float' and 'str' 


@ Vector 调用 的 components 参数 是 一 个 生成 器 表达 式 。 这 一 步 没 
问题 。 


@ components 生成 器 表达 式 传 给 array 构造 方法 。 在 这 里 ，Python 
近 试 和 闪 代 生成 器 表达 式 ， 因 此 会 计算 第 一 个 元 素 a + b。 这 里 抛 出 了 
TypeError。 


© 异常 癌 上 冒 泡 ， 到 达 Vector 构造 方法 调用 ， 在 这 里 报告 出 来 。 这 表 
o 器 表达 式 在 最 后 时 刻 才 会 计算 ， 而 不 是 在 源码 中 定义 它 的 位 置 
j” fe} 

与 之 相 比 ， 如 果 像 Vector([a + b for a, b in pairs] ) 这 样 调 
用 Vector HEME, BAR EMAMWMRH, KHAIR ES EA 


建 一 个 列表 ， 以 便 作 为 参数 传 给 vector() 调用 。 此 时 ， 根 本 不 会 触及 
Vector. init 的 定义 体 。 


第 14 章 会 详细 讨论 生成 句 表 达 式 ， 但 是 我 不 想 让 示例 中 偶然 出 现 的 情 
性 计算 迹象 漏 过 去 。 


23 我 的 朋友 Mario Domenech Goulart, CHICKEN Scheme 编译 器 的 核心 开发 者 ， 可 能 不 会 同意 这 一 说 
法 。 


第 五 部 分 ”控制 流程 


第 14 章 MARZ ` ARME 
Bas 


SREE CARE PRAT TRIN, Be RE NH ht 
了 。 程序 的 形式 应 该 仅仅 反映 它 所 要 解决 的 问题 。 代 码 中 其 他 任何 外 加 
的 形式 都 是 一 个 信号 ， (BD BORD) 表明 我 对 问题 的 抽象 还 不 够 深 
一 一 这 通常 意味 着 自己 正在 手动 完成 的 事情 ， 本 应 该 通过 写 代 码 来 让 宏 
的 扩展 自动 实现 。? 


Paul Graham? 
Lisp 黑客 和 风险 投资 人 


1 摘自 一 篇 博客 文章 ，“Revenge of the Nerds”〈“ 书 呆 子 的 复仇 ”) ° 


Paul Graham 的 文集 《黑客 与 画家 : 来 自 计算 机 时 代 的 高 见 》 已 由 人 民 邮 电 出 版 社 出 版 ， 书 号 : 978- 
7-115-32656-0 ° ”编者 注 


迭代 是 数据 处 理 的 基石 。 扫 描 内 存 中 放 不 下 的 数据 集 时 ， 我 们 要 找到 一 种 情 
性 获取 数据 项 的 方式 ， 即 按 需 一 次 获取 一 个 数据 项 。 这 就 是 欠 代 器 模式 
(Iterator pattern) 。 本 章 说 明 Python 语言 是 如 何 内 置 和 迭代 喜 模 式 的 ， 这 样 就 
避免 了 上 自己 手动 去 实现 。 


与 Lisp (Paul Graham 最 喜欢 的 语言 ) 不 同 ，Python 没有 宏 ， 因 此 为 了 抽象 
出 适 代 器 模式 ， 需 要 改动 语言 本 喘 。 为 此 ，Python 2.2 (2001 年 ) 加 入 了 
yield XEF ° 3 这 个 关键 字 用 于 构建 生成 器 (generator) ， 其 作用 与 迭代 
as FF ° 


3python 2.2 的 用 户 可 以 使 用 from __future__ import generators 指令 获取 yield 关键 字 ; 
在 Python 2.3 F, yield 关键 字 默 认可 用 。 


` HAERESI, AN ERREK T Aah e AS 
过 ， 根 据 《 设 计 模式 : TRAER RAFE PBE, TBC 
器 用 于 从 集合 中 取出 元 素 ， 而 生成 问 用 于 “凭空 ”生成 元 素 。 通 过 斐 波 纳 
契 数 列 能 很 好 地 说 明 二 者 之 间 的 区 别 : SERRA PAB ICT 
在 一 个 集合 里 放 不 下 。 不 过 要 知道 ， 在 Python 社区 中 ， 大 多 数 时 候 都 把 
迭代 器 和 生成 器 视 作 同一 概念 。 


在 Python 3 中 ， 生 成 器 有 广泛 的 有 用途。 现在， 即使 是 内 置 的 range() 函数 
也 返回 一 个 类 似 生成 器 的 对 象 ， 而 以 前 则 返回 完整 的 列表 。 如 果 一 定 要 让 
range() 函数 返回 列表 ， 那 么 必须 明确 指明 (例如 ， 
list(range(100))) 。 


aoe 中 ， 所 有 集合 都 可 以 迭代 。 在 Python 语言 内 部 ， 迭 代 器 用 于 文 
SP: 


for 循环 
构建 和 扩展 集合 类 型 
RFT IBA SARE 
列表 推导 、 字 典 推导 和 集合 推导 
元 组 拆 包 
调用 函数 时 ， 使 用 * 拆 包 实 参 
本 章 洱 盖 以 下 话题 ; 
。 语言 内 部 使 用 iter(...) 内 置 函 数 处 理 可 迭代 对 象 的 方式 
。 如 何 使 用 Python 实现 经 典 的 迭代 器 模式 
。 详细 说 明生 成 器 函数 的 工作 原理 
。 如 何 使 用 生成 器 函 数 或 生成 器 表达 式 代 替 经 典 的 迭代 器 
。 如 何 使 用 标准 库 中 通用 的 生成 器 函数 
。 如 何 使 用 yield from 语句 合并 生成 器 
。 案例 分 析 : 在 一 个 数据 库 转换 工具 中 使 用 生成 器 函数 处 理 大 型 数据 集 
。 为 什么 生成 器 和 协 程 看 似 相 同 ， 实 则 差别 很 大 ， 不 能 混 清 
首先 来 研究 iter(...) 函数 如 何 把 序列 变 得 可 以 迭代 。 


14.1 Sentence 类 第 1 版 ， 单词 序列 


我 们 要 实现 一 个 Sentence X, MEH F RRA RIIKE ° RTX 
个 类 的 构造 方法 传 入 包含 一 些 文本 的 字符 串 ， 然 后 可 以 逐个 单词 达 代 。 第 1 

版 要 实现 序列 协议 ， 这 个 类 的 对 象 可 以 送 代 ， 因 为 所 有 序列 都 可 以 送 代 一 一 
这 一 点 前 面 已 经 说 过 ， 不 过 现在 要 说 明 真 正 的 原因 。 


示例 14-1 定义 了 一 个 Sentence 类 ， 通 过 索引 从 文本 中 提取 单词 。 
示例 14-1 sentence.py: 把 句子 划分 为 单词 序列 


import re 
import reprlib 


RE_WORD = re.compile('\w+') 


class Sentence: 


def _ init__(self, text): 
self.text = text 
self.words = RE_WORD.findall(text) @ 


def _ getitem_ (self, index): 
return self.words[index] @ 


def _len_ (self): © 
return len(self.words) 


def _repr_ (self): 
return 'Sentence(%s)' % reprlib.repr(self.text) (4) 


@ re. findall 函数 返回 一 个 字符 串 列 表 ， 里 面 的 元 素 是 正则 表达 式 的 全 


部 非 重 县 匹配 。 


@ self ,words 中 保存 的 是 ,findall 函数 返回 的 结果 ， 因 此 直接 返回 指 
定 索引 位 上 的 单词 。 


O 为 了 完善 序列 协议 ， 我 们 实现 了 len 方法， 不过， 为 了 让 对 象 可 以 
迭代 ， 没 必要 实现 这 个 方法 。 


O reprlib. repr 这 个 实用 函数 用 于 生成 大 型 数据 结构 的 简略 字符 串 表 示 
ae? 


4 首次 使 用 repr1lib 模块 是 在 10.2 节 。 


默认 情况 下 ，repr1lib ,repr & 男 数 生成 的 字 街 串 最 多 有 30 个 字符 。 
Sentence 类 的 用 法 参见 示例 14-2 中 的 控制 台 会 话 。 


示例 14-2 测试 Sentence 实例 能 否 迭 代 


>>> s = Sentence('"The time has come," the Walrus said,') #@ 
>>> S 
Sentence('"The time ha... Walrus said,') #@ 
>>> for word ins: #® 
print(word) 


>>> list(s) #0 
['The', 'time', 'has', 'come', 'the', 'Walrus', 'said'] 


@ 传 入 一 个 字符 串 ， 创 建 一 个 Sentence 实例 。 
四 注意 ，_repr_ ”方法 的 输出 中 包含 repr1ib.repr 方法 生成 的 .,,.。 
© Sentence 实例 可 以 欠 代 ， 稍 后 说 明 原 因 。 


OA AAT LUGAR, Prod Sentence 对 象 可 以 用 于 构建 列表 和 其 他 可 迭代 的 
类 型 。 


在 接 下 来 的 几 页 中 ， 我 们 还 要 开发 其 他 Sentence 类 ， 而 且 都 能 通过 示例 
14-2 中 的 测试 。 不 过 ， 示 例 14-1 中 的 实现 与 其 他 实现 都 不 同 ， 因 为 这 一 版 
Sentence 类 也 是 序列 ， 可 以 按 索引 获取 单词 : 


所 有 Python 程序 员 都 知道 ， 序 列 可 以 欠 代 。 下 面 说 明 具 体 的 原因 。 
序列 可 以 迭代 的 原因 : iter WRX 
fe ae m SORT OVER x 时 ， 会 目 动 调 用 iter(x) ° 


内 置 的 iter 函数 有 以 下 作用 。 


(1) 检查 对 象 是 否 实现 了 __iter 方法 ， 如 果实 现 了 就 调用 它 ， 获 取 一 个 
迭代 器 。 


(2) 如 果 没 有 实现 iter_ 方法， 但 是 实现 了 getitem_ 方法 ， 
Python 会 创建 一 个 迭代 器 ， 学 试 按 顺序 \ 从 索引 0 开始 ) 获取 元 素 。 


(3) MRARAM, Python 抛 出 TypeError 异常 ， 通 常会 提示 “C object is 
not iterable” (C 对 象 不 可 和 迭代 ) ， 其 中 C 是 目标 对 象 所 属 的 类 。 


任何 Python 序列 都 可 迭代 的 原因 是 ， 它 们 都 实现 了 _ getitem__ 方法 。 
其 实 ， 标 准 的 序列 也 都 实现 了 _ iter 方法 ， 因 此 你 也 应 该 这 么 做 。 之 所 
以 对 __getitem _ 方法 做 特殊 处 理 ， 是 为 了 向 后 兼容 ， 而 未 来 可 能 不 会 再 
这 么 做 〈 不 过 ， 写 作 本 书 时 还 未 弃 用 ) 


11.2 节 提 到 过 ， 这 是 鸭子 类 型 (duck typing) 的 极端 形式 ， 不仅 要 实现 特殊 
的 iter 方法 ， 还 要 实现 getitem _ 方法 , 而 且 _getitem _ 
方法 的 参数 是 从 0 开始 的 整数 (int) ， 这 样 才 认为 对 象 是 可 迭代 的 。 


在 白 秘 类 型 (goose-typing) 理论 中 ， 可 迭代 对 象 的 定义 简单 一 些 ， 不 过 没 那 
么 灵活 : WRM iter 方法， 那么 就 认为 对 象 是 可 迭代 的 。 此 时 ， 
不 需要 创建 子 类 ， 也 不 用 注册 ， 因 为 abc .Iterable 类 实现 了 
__subclasshook__ 方法， 如 11.10 节 所 述 。 下 面 举 个 例子 : 


>>> class Foo: 
. def _iter_ (self): 
pass 


>>> from collections import abc 


>>> issubclass(Foo, abc.Iterable) 
True 

>>> f = Foo() 

>>> isinstance(f, abc.Iterable) 
True 


不 过 要 注意 ， 昌 然 前 面 定义 的 Sentence 类 是 可 以 迭代 的 ， 但 却 无 法 通过 
issubclass (Sentence, abc.Iterable) 测试 。 


可 从 Python 3.4 开始 ， 检 查 对 象 x 能 否 迭 代 ， 最 准确 的 方法 是 调 
用 iter(x) 函数 ， 如 果 不 可 和 迭代， 再 处 理 TypeError 异常 。 这 比 使 
FA isinstance(x, abc.Iterable) 更 准确 ， 因 为 iter(x) 函数 


ABEER _ getitem_ Wik, fi abc.Iterable 类 则 不 考 


迭代 对 象 之 前 显 式 检 查 对 象 是 否 可 迭代 或 许 没 必要 ， 毕 竟 党 试 迭 代 不 可 迭代 
的 对 象 时 ，Python 抛 出 的 异常 信息 很 明确 : TypeError: 'C' object 
is not iterab1le。 如 果 除 了 抛 出 TypeError 异常 之 外 还 要 做 进一步 的 
处 理 ， 可 以 使 用 try/except 块 ， 而 无 需 显 式 检查 。 如 果 要 保存 对 象 ， 等 
以 后 再 迭代 ， 或 许可 以 显 式 检查 ， 因 为 这 种 情况 可 能 需要 尽早 捕获 错误 。 


下 一 节 详 述 可 迄 代 的 对 象 和 迭代 器 之 间 的 关系 。 
14.2 ”可 迭代 的 对 象 与 迭代 器 的 对 比 


从 14.1.1 市 的 解说 可 以 推 知 下 述 定 义 。 
可 迭代 的 对 象 


使 用 iter 内 置 画 数 可 以 获取 迭代 器 的 对 象 。 如 果 对 象 实现 了 能 返回 迭 
代 器 的 _ iter_ 方法 ， 那 么 对 象 就 是 可 迭代 的 。 序 列 都 可 以 迭代 ; 实现 了 
getitem_ 方法 ， 而 且 其 参数 是 从 零 开 始 的 索引 ， 这 种 对 象 也 可 以 友 
Ke 


我 们 要 明确 可 迭代 的 对 象 和 迭代 器 之 间 的 关系 : Python 从 可 迭代 的 对 象 中 获 
HUA aE ° 

下 面 是 一 个 简单 的 for 循环 ， 和 迭代 一 个 字符 串 。 这 里 ， 字 符 串 'ABC' 是 可 
迭代 的 对 象 。 背 后 是 有 迭代 器 的 ， 只 不 过 我 们 看 不 到 : 


>>> s = 'ABC' 
>>> for char in s: 
print(char) 


A 
B 
C 


如 果 没 有 for 语句 ， 不 得 不 使 用 while 循环 模拟 ， 要 像 下 面 这 样 写 : 


>>> s = 'ABC' 


>>> it = iter(s) # @ 
>>> while True: 
try: 
print(next(it)) #@ 


except StopIteration: # © 
del it #0 
break # © 


@ (EFA BAH RIER it ° 

@ 不 断 在 迭代 器 上 调用 next 画 数 ， 获 取 下 一 个 字符 。 

O 如 果 没 有 字符 了 ， 和 迭代 器 会 抛 出 StopIteration 异常 。 
@ 释放 对 it 的 引用 ， 即 废弃 迭代 器 对 象 

O 退出 循环 。 


StopIteration 异常 表明 迭代 器 到 头 了 。Python 语言 内 部 会 处 理 for 循 
TRAIL ARLE PC (如 列表 推导 、 元 组 拆 包 ， 等 等 ) 中 的 


StopIteration 异常 。 
标准 的 迭代 器 接口 有 两 个 方法 。 
_ next__ 


返回 下 一 个 可 用 的 元 素 ， 如 果 没 有 元 素 了 ， 抛 出 StopIteration H 


i 
iter 


返回 seLf， 以 便 在 应 该 使 用 可 和 迭代 对 象 的 地 方 使 用 迭代 右 ， 例 如 在 
for 循环 中 。 


这 个 接口 在 collections.abc.Iterator 抽象 基 类 中 制定 。 这 个 类 定义 
J __next__ 抽象 方法 ， 而 且 继承 自 Iterable 类 ; _iter__ 抽象 方法 
则 在 Iterable 类 中 定义 。 如 图 14-1 所 示 。 


构建 


def iter _ (self): 


return self 


图 14-1: Iterable fl Iterator 抽象 基 类 。 以 斜体 显示 的 是 抽象 方法 。 
具体 的 Iterable. iter_ ”方法 应 该 返回 一 个 Iterator 实例 。 具 体 的 
Iterator 类 必须 实现 ”next 方法 。Iterator. iter 方法 直接 
返回 实例 本 身 


Iterator 抽象 基 类 实现 iter__ 方法 的 方式 是 返回 实例 本 身 (return 
self) 。 这 样 ， 在 需要 可 迭代 对 象 的 地 方 可 以 使 用 迭代 器 。 示 例 14-3 是 
abc.Iterator 类 的 源码 。 


示例 14-3 abc.Iterator #%, 4% Lib/_collections_abc.py 


class Iterator(Iterable): 
__slots__ 


@abstractmethod 
def _next_ (self): 
'Return the next item from the iterator. When exhausted, raise 
StopIteration' 
raise StopIteration 


def _iter_ (self): 
return self 


@classmethod 
def __subclasshook__(cls, C): 
if cls is Iterator: 
if (any("__next__" in B.__dict__ for B in C.__mro__) and 
any("__iter__" in B.__dict__ for B in C.__mro__)): 
return True 
return NotImplemented 


BA JE Python 3 ¥, Iterator 抽象 基 类 定义 的 抽象 方法 是 
it.__next__(), MÆ Python 2 中 是 it ,next()。 一 如 既往 ， 我 们 
应 该 避免 直接 调用 特殊 方法 ， 使 用 next(it) 即 可 ， 这 个 内 置 的 函数 在 
Python 2 和 Python 3 中 都 能 使 用 。 


在 Python 3.4 中 ，Lib/types.py 模块 的 源码 里 有 下 面 这 段 注释 : 


Iterators in Python aren't a matter of type but of protocol. A large 
and changing number of builtin types implement *some* flavor of 
iterator. Don't check the type! Use hasattr to check for both 
"iter" and "__next__" attributes instead. 


+e H 


其 实 ， 这 就 是 abc,Iterator 抽象 基 类 中 __subclasshook__ 方法 的 作 
用 (参见 示例 14-3) ° 


本 考虑 到 Lib/types.py 中 的 建议 ， 以 及 Lib/_collections_abc.py 中 的 实 

IHE, REIR x 是 否 为 迭代 器 最 好 的 方式 是 调用 isinstance(x, 

abc.Iterator )。 得 益 于 Iterator, subclasshook 方法， Bl 

x 所 属 的 类 不 是 Iterator 类 的 真实 子 类 或 虚拟 子 类 ， 也 能 这 
VE © 


再 看 示例 14-1 中 定义 的 Sentence 类 ， 在 Python 控制 台中 能 清楚 地 看 出 如 
何 使 用 iter(... ) 函数 构建 述 代 妖 ， 以 及 如 何 使 用 next(... ) 函数 使 用 
IAT Nae: 


>>> S3 Sentence('Pig and Pepper') #@0 
>>> it = iter(s3) #@ 

>>> it # doctest: +ELLIPSIS 
<iterator object at Ox...> 

>>> next(it) # © 

"Pig' 

>>> next(it) 

"and' 

>>> next(it) 

"Pepper ' 

>>> next(it) #0 

Traceback (most recent call last): 


StopIteration 
>>> list(it) # © 
[] 


>>> list(iter(s3)) # © 
['Pig', 'and', 'Pepper'] 


@ 创建 一 个 Sentence 实例 s3, BE 3 个 单词 。 
@ 从 s3 中 获取 迭代 器 。 
© 调用 next(it)， 获 取 下 一 个 单词 。 
@ 没有 单词 了 ， 因 此 迭代 器 抛 出 StopIteration 异常 。 
O FLE, ARAA T 。 
@ WERE BVA, HEERA ° 
AeA O next Miter _ 两 个 方法 ， 所 以 除了 调用 
next( ) 方法 ， 以 及 捕获 StopIteration 异常 之 外 ， 没 有 办 法 检查 是 否 还 
有 遗留 的 元 素 。 此 外 ， 也 没有 办 法 “还 原 ” 迭 代 器 。 如 果 想 再 次 迭代 ， 那 束 要 
调用 iter(...)， 传 入 之 前 构建 迭代 器 的 可 迭代 对 象 。 传 入 迭代 器 本 身 没 
用 ， 因 为 前 面 说 过 Iterator. iter ”方法 的 实现 方式 是 返回 实例 本 
身 ， 所 以 传 入 闪 代 器 无 法 还 原 已 经 耗 尽 的 迭代 器 。 
根据 本 节 的 内 容 ， 可 以 得 出 迭代 器 的 定义 如 下 。 
迭代 器 

和 迭代 器 是 这 样 的 对 象 : 实现 了 无 参数 的 __next_ 方法， 返回 序列 中 的 
下 一 个 元 素 ， 如 果 没 有 元 素 了 ， 那 么 抛 出 StopIteration Æ% °- Python 
中 的 迭代 器 还 实现 了 iter 方法 ， 因 此 迭代 器 也 可 以 迭代 。 
因为 内 置 的 iter(...) 函数 会 对 序列 做 特殊 处 理 ， 所 以 第 1 版 Sentence 
类 可 以 迭代 。 接 下 来 要 实现 标准 的 可 迭代 协议 。 


14.3 ”Sentence 类 第 2 版 ， 典 型 的 迭代 器 


第 2 版 Sentence 类 根据 《设计 模式 : 可 复 用 面向 对 象 软件 的 基础 》 一 书 给 
出 的 模型 ， 实 现 典 型 的 迭代 器 设计 模式 。 注 意 ， 这 不 符合 Python 的 习惯 做 
去 ， 后 面 重 构 时 会 说 明 原因 。 不 过 ， 通 过 这 一 版 能 明确 可 迭代 的 集合 和 迭代 
器 对 象 之 间 的 关系 。 


示例 14-4 中 定义 的 Sentence 类 可 以 迭代 ， 因 为 它 实现 了 特殊 的 
iter 方法 ,构建 并 返回 一 个 SentenceIterator 实例 。《 设 计 模 


一 <v 


式 : 可 复 用 面向 对 象 软件 的 基础 》 一 书 束 是 这 样 措 述 欠 代 器 设计 模式 的 。 


这 里 之 所 以 这 么 做 ， 是 为 了 清楚 地 说 明 可 迭代 的 对 象 和 和 迭代 右 之 间 的 重要 区 
别 ， 以 及 二 者 之 间 的 联系 。 


示例 14-4 sentence_iterpy: 使 用 迭代 器 模式 实现 Sentence 类 


import re 
import reprlib 


RE_WORD = re.compile('\w+') 


class Sentence: 


def _ init__(self, text): 
self.text = text 
self.words = RE_WORD.findall(text) 


def __repr__(self): 
return 'Sentence(%s)' % reprlib.repr(self.text) 


def _iter_(self): @ 
return SentenceIterator(self.words) © 


class SentencelIterator: 


def _init_ (self, words): 
self.words = words © 
self.index =0 @ 


__next__(self): 
try: 

word = self.words[self.index] © 
except IndexError: 

raise StopIteration() © 
self.index += 1 © 
return word ® 


__iter__(self): © 
return self 


@ 与 前 一 版 相 比 ， 这 里 只 多 了 一 个 iter_ 方法 。 这 一 版 没有 
”getitem_ 方法， 为 的 是 明确 表明 这 个 类 可 以 闪 代 ， 因 为 实现 了 
iter 方法 。 


O 根据 可 迭代 协议 ，_ iter_ 方法 实例 化 并 返回 一 个 迭代 器 。 


© SentenceIterator 实例 引用 单词 列表 。 
O self.index 用 于 确定 下 一 个 要 获取 的 单词 。 


© 获取 self.index 索引 位 上 的 单词 。 


O WA self.index 索引 位 上 没有 单词 ， 那 么 抛 出 StopIteration 7 


a O 


o 


@ 递增 self.index 的 值 
@ 返回 单词 。 
日 实现 self. iter _ 方法。 
示例 14-4 中 的 代码 能 通过 示例 14-2 中 的 测试 。 


注意 ， 对 这 个 示例 来 说 ， 其 实 没 必要 在 SentenceIterator 类 中 实现 
iter 方法， 不 过 这 么 做 是 对 的 ， 因 为 迭代 需 应 该 实现 __next_“ 和 
iter 两 个 方法 ， 而 且 这 么 做 能 让 迭代 需 通 过 
issubclass(SentenceIterator, abc.Iterator) ) 测试 。 如 果 让 
SentenceIterator 类 继承 abc.Iterator 类 ， 那 么 它 会 继承 
abc.Iterator. iter _ 这 个 具体 方法 。 


一 版 的 工作 量 很 大 (对 懒惰 的 Python 程序 员 来 说 确实 如 此 ) 。 注 意 ， 
SentenceIterator 类 的 大 多 数 代 码 都 在 处 理 迭 代 器 的 内 部 状态 。 稍 后 会 
BoB STAT IEE 。 不 过 ， 在 此 之 前 我 们 先 稍 微 离 题 ， 讨 论 一 个 看 似 合理 实则 错 
误 的 实现 捷径 


把 sentence 变 成 迭代 器 : KER 

构建 可 迭代 的 对 象 和 迭代 器 时 经 常会 出 现 错误 ， 原 因 是 混淆 了 二 者 。 要 知 
道 ， 可 迭代 的 对 象 有 个 iter_ 方法， 每 次 都 实例 化 一 个 新 的 迭代 器 ， 而 
迭代 器 要 实现 next__ 方 法， 返回 单个 元 素 ， 此 外 还 要 实现 iter 
方法 ， 返 回 和 迭代 器 本 喘 。 

因此 ， 迭 代 器 可 以 迭代 ， 但 是 可 过 代 的 对 象 不 是 迭代 器 


除了 iter ”方法 之 外 ， 你 可 能 还 想 在 Sentence XPM next 
方法 ， 让 Sentence 实例 既是 可 迭代 的 对 象 ， 也 是 自身 的 迭代 器 。 可 是 ， 这 


种 想法 非常 糟糕 。 根 据 有 大 量 Python 代码 审查 经 验 的 Alex Martelli 所 说 ， 
也 是 常见 的 反 模 式 。 


《设计 模式 ， 可 复 用 面向 对 象 软件 的 基础 》 一 书 讲解 迁 代 器 设计 模式 时 ， 
在 “适用 性 ”一 节 中 说 ，5 


> 《设计 模式 ， 可 复 用 面向 对 象 软件 的 基础 》 第 172 ° 
IAT ae Bel HR: 
。 访问 一 个 聚合 对 象 的 内 容 而 无 需 梭 露 它 的 内 部 表示 
。 文 持 对 聚合 对 象 的 多 种 遍历 
。 为 遍历 不 同 的 聚合 结构 提供 一 个 统一 的 接口 (Bsc ae AIAN) 
为 了 "“ 文 持 多 种 遍历 ”， 必 须 能 从 同一 个 可 迭代 的 实例 中 获取 多 个 独立 的 迭代 
器 ， 而 且 各 个 迭代 器 要 能 维护 目 身 的 内 部 状态 ， 因 此 这 一 模式 正确 的 实现 方 


式 是 ， 每 次 调用 iter(my_iterable) 都 新 建 一 个 独立 的 迭代 器 。 这 就 是 
为 什么 这 个 示例 需要 定义 SentenceIterator 类 。 


只 


可 迭代 的 对 象 一 定 不 能 是 自身 的 友人 代 器 。 也 就 是 说 ， 可 迭代 的 对 象 必 须 
XM iter 方法， 但 不 能 实现 __next_ 方法 。 


FA FTL, JAAS IA — BEY IRAN o Base iter 方法 应 该 返 
回 目 身 。 


至 此 ， 我 们 演示 了 如 何 正确 地 实现 典型 的 迭代 右 模 式 。 本 和 至 此 告 一 段落 ， 
下 一 节 展 示 如 何 使 用 更 符合 Python 习惯 的 方式 实现 Sentence 类 。 


14.4 _ Sentence 类 第 3 版 : 生成 器 男 数 


实现 相同 功能 ， 但 却 符合 Python 习惯 的 方式 是 ， 用 生成 器 函数 代替 
SentenceIterator 类 。 先 看 示例 14-5， 然 后 详细 说 明生 成 器 函数 。 


示例 14-5 sentence_gen.py: EH ERAR HZI Sentence 类 


as 


import re 
import reprlib 


RE_WORD = re.compile('\w+' ) 


class Sentence: 


def _ init__(self, text): 
self.text = text 
self.words = RE_WORD.findall(text) 


__repr__(self): 
return 'Sentence(%s)' % reprlib.repr(self.text) 


__iter__(self): 

for word in self.words: @ 
yield word @ 

return © 


(4) 


@ E(t self .words ° 
Ə 产 出 当前 的 word ° 


O 这 个 return 语句 不 是 必要 的 ; 这 个 函数 可 以 直接 “落空 ”， 上 自动 返回 。 不 
管 有 没有 return 语句 ， 生 成 器 函数 都 不 会 抛 出 StopIteration 异常 ， 
而 是 在 生成 完全 部 值 之 后 会 直接 退出 。6 


6Alex Martelli 审查 这 上段 代码 时 建议 简化 这 个 方法 的 定义 体 ， 直 接 使 用 return 

iter (self .words)。 当 然 ， 他 是 对 的 ， 毕 竟 调 用 __iter__ 方法 得 到 的 就 是 迭代 器 。 不 过 ， 这 
里 我 用 的 是 for 循环 ， 而 且 用 到 了 yield 关键 字 ， 这 样 做 是 为 了 介绍 生成 器 函数 的 句法 。 下 一 节 会 
详细 说 明 。 


@ 不 用 再 单独 定义 一 个 迭代 器 类 ! 


我 们 又 使 用 一 种 不 同 的 方式 实现 了 Sentence 类 ， 而 且 也 能 通过 示例 14-2 
中 的 测试 。 


在 示例 14-4 定义 的 Sentence 类 中 ，_ iter_ ”方法 调用 
SentenceIterator 类 的 构造 方法 创建 一 个 迭代 器 并 将 其 返回 。 而 在 示例 
14-5 中 ， 送 代 器 其 实 是 生成 器 对 象 ， 每 次 调用 __iter__ 方法 都 会 自动 创 
建 ， 因 为 这 里 的 iter ARERR ° 


n> 


下 面 全 面 说 明生 成 器 画 数 。 
生成 器 函数 的 工作 原理 
只 要 Python 画 数 的 定义 体 中 有 yield 关键 字 ， 该 画 数 就 是 生成 器 画 数 。 调 


用 生成 句 函 数 时 ， 会 返回 一 个 生成 咒 对 象 。 也 就 是 说 ， 生 成 器 函数 是 生成 狠 
L s 


PBA ELSE Aa HACE AE EPR AIK Se, TER INE ML 
体 中 有 yield REF ° FLAUNT ME weds HEI EST 
关键 字 ， 例 如 gen， 而 不 该 使 用 def, (Be Guido 不 同意 。 他 的 理由 参 
见 “PEP 255—Simple Generators” ° 7 


“有 时 ， 我 会 在 生成 器 函数 的 名 称 中 加 上 gen 前 缀 或 后 级 ， 不 过 这 不 是 习惯 做 法 。 显 然 ， 如 果实 现 的 
是 迭代 器 ， 那 就 不 能 这 么 做 ， 因 为 所 需 的 特殊 方法 必须 命名 为 iter__。 


下 面 以 一 个 特别 简单 的 函数 说 明生 成 器 的 行为 : 8 


8 感谢 David Kwast 建议 使 用 这 个 示例 。 


>>> def gen_123(): # @ 
yield 1 #90 
yield 2 
yield 3 


>>> gen_123 # doctest: +ELLIPSIS 
<function gen_123 at 0x...> #® 
>>> gen_123() # doctest: +ELLIPSIS 
<generator object gen_123 at 0x...> #® 
>>> for i in gen_123(): #0 

print(i) 


g = gen_123() #® 
>>> next(g) #@0 


>>> next(g) 

2 

>>> next(g) 

3 

>>> next(g) #0 

Traceback (most recent call last): 


StopIteration 


只 要 Python 函数 中 包含 关键 字 yield, KAE EAT KA o 


@ 生成 器 函数 的 定义 体 中 通常 都 有 循环 ， 不 过 这 不 是 必要 条 件 ; 这 里 我 重复 
使 用 3 次 yield。 


© 仔细 看 ，gen_123 是 函数 对 象 。 

O 但 是 调用 时 ，gen_123( ) 返回 一 个 生成 器 对 象 。 

O 生成 器 是 迭代 器 ， 会 生成 传 给 yield 关键 字 的 表达 式 的 值 
O 为 了 仔细 检查 ， 我 们 把 生成 器 对 象 赋值 给 g。 


@ 因为 g etter, ATLA next(g) 会 获取 yield 生成 的 下 一 个 元 
素 。 


© 生成 器 函数 的 定义 体 执行 完毕 后 ， 生 成 器 对 象 会 抛 出 StopIteration 


异常 。 

生成 器 函数 会 创建 一 个 生成 器 对 象 ， 包 装 生成 器 函数 的 定义 体 。 把 生成 器 传 
给 next(...) 函数 时 ， 生 成 器 函数 会 回 前 ， 执行 画 数 定义 体 中 的 下 一 个 
yield 语句 ， 返回 产 出 的 值 ， 并 在 函数 定义 体 的 当前 位 置 暂停 。 最 终 ， 函 数 
的 定义 体 返 回 时 ， 外 层 的 生成 器 对 象 会 抛 出 StopIteration 异常 一 一 这 一 
点 与 迭代 器 协议 一 致 。 


` 


[0] 


~ 我 觉得 ， 使 用 准确 的 词语 描述 从 生成 器 中 获取 结果 的 过 程 ， 有 助 
于 理解 生成 器 。 注 意 ， 我 说 的 是 产 出 或 生成 值 。 如 果 说 生成 器 “ 返 
回 ” 值 ， 就 会 让 人 难以 理解 。 画 数 返回 值 ;调用 生成 器 函数 返回 生成 
器 ;生成 器 产 出 或 生成 值 。 生 成 器 不 会 以 常规 的 方式 “返回 * 值 ， 生 成 器 
函数 定义 体 中 的 return 语句 会 触发 生成 器 对 象 抛 出 StopIteration 


a 9 
IT ° 


“在 Python 3.3 之 前 ， 如 果 生 成 器 函数 中 的 return 语句 有 返回 值 ， 那 么 会 报错 。 现 在 可 以 这 么 做 ， 
不 过 return 语句 仍 会 导致 StopIteration 异常 抛 出 。 调 用 方 可 以 从 异常 对 象 中 获取 返回 值 。 可 
是 ， 只 有 把 生成 器 函数 当成 协 程 使 用 时 ， 这 么 做 才 有 意义 ， 详 情 参 见 16.6 节 。 


示例 14-6 使 用 for 循环 更 清楚 地 说 明了 生成 需 函 数 定义 体 的 执行 过 程 。 
示例 14-6 运行 时 打印 消息 的 生成 器 函数 


>>> def gen_AB(): #@0 
， print('start') 
yield 'A' #@ 
print('continue' ) 
yield 'B' # © 
print('end.') 


>>> for c in gen_AB(): 


print('-->', c) 


@ EXE Bias 数 的 方式 与 普通 的 函数 无 异 ， 只 不 过 要 使 用 yie1d 关键 
F o 


@ 在 for 循环 中 第 一 次 隐 式 调用 next() 函数 时 (序号 @) ， 会 打印 
'start'， 然 后 停 在 第 一 个 yield 语句 ， 生 成 值 'A'。 


© 在 for 循环 中 第 二 次 隐 式 调用 next() E KA, 会 打印 'continue' 
然后 停 在 第 二 个 yield 语句 ， 生 成 值 'B' 


O 第 三 次 调用 next( ) 函数 时 ， 会 打印 'end.'， 然 后 到 达 函 数 定义 体 的 末 
尾 ， 导 致 生成 器 对 象 抛 出 StopIteration 异常 。 


O IRET, for 机 制 的 作用 与 g = iter(gen_AB()) 一 样 ， 用 于 获取 生 
成 器 对 象 ， 然 后 每 次 迭代 时 调用 next(g)。 


O 循环 块 打印 - -> 和 next(g) 返回 的 值 。 但 是 ， 生 成 器 函数 中 的 print 
函数 输出 结 末 之 后 才 会 看 到 这 个 输出 。 


O 'start ' e+ Ata Weve CAF print('start') 输出 的 结 


© 生成 器 函数 定义 体 中 的 yield 'A' 语句 会 生成 值 A， 提 供给 for 循环 使 
用 ， 而 A 会 赋值 给 变量 c， 最 终 输出 --> A。 


© 第 二 次 调用 next (9)， 继 续 迭 代 ， 生 成 器 函数 定义 体 中 的 代码 由 yield 
'A' 前 进 到 yield 'B'。 文 本 continue 是 由 生成 器 函数 定义 体 中 的 第 二 
个 print 函数 输出 的 。 


@ yield 'B' 语句 生成 值 B， 提 供给 for 循环 使 用 ， 而 B 会 赋值 给 变量 
c， 所 以 循环 打印 出 --> Bo 


D 第 三 次 调用 next(it)， 继 续 迭 代 ， 前 进 到 生成 器 函数 的 末尾 。 文 本 
end. 是 由 生成 器 函数 定义 体 中 的 第 三 个 print 函数 输出 的 。 到 达 生 成 器 画 
数 定义 体 的 末尾 时 ， 生 成 器 对 象 抛 出 StopIteration 异常 。for 机 制 会 
捕获 异常 ， 因 此 循环 终止 时 没有 报错 。 


@ 现在， 希望 你 已 经 知道 示例 14-5 + Sentence. iter ”方法 的 作用 
J: iter_ ”方法 是 生成 器 函数 ， 调 用 时 会 构建 一 个 实现 了 迭代 器 接口 的 
生成 器 对 象 ， 因 此 不 用 再 定义 SenttencelIterator 类 了 ° 


这 一 版 Sentence 类 比 前 一 版 简短 多 了 ， 但 是 还 不 够 懒惰 。 如 今 ， 人 们 认为 
惰性 是 好 的 特质 ， 至 少 在 编程 语言 和 API 中 是 如 此 。 人 惰性 实现 是 指 尽 可 能 延 
后 生成 值 。 这 样 做 能 节省 内 存 ， 而 且 或 许 还 可 以 避免 做 无 用 的 处 理 。 


下 一 节 以 这 种 惰性 方式 定义 Sentence 类 。 
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设计 Iterator 接口 时 考虑 到 了 惰性 : next (my_iterator ) 一 次 生成 一 
个 元 素 。 人 懒惰 的 反义词 是 急迫 ， 其 实 ， 惰 性 求 值 (lazy evaluation) 和 及 早 求 
值 (eager evaluation) 是 编程 语言 理论 方面 的 技术 术语 。 


目前 实现 的 几 版 Sentence 类 都 不 具有 惰性 ， 因 为 init_ ”方法 急迫 地 
构建 好 了 文本 中 的 单词 列表 ， 然 后 将 其 绑 定 到 se1lf .words 属性 上 。 这 样 
就 得 处 理 整个 文本 ， 列 表 使 用 的 内 存量 可 能 与 文本 本 身 一 样 多 (或 许 更 多 ， 
这 取决 于 文本 中 有 多 少 非 单 词 字符 ) 。 如 果 只 需 迭 代 前 几 个 单词 ， 大 多 数 工 
作 都 是 白费 力气 。 


的 是 Python 3， 思 索 着 做 某 件 事 有 没有 懒惰 的 方式 ， 答 案 通 营 都 是 
肯定 的 。 


re.finditer HAE re. findall 函数 的 惰性 版 本 ， 返 回 的 不 是 列表 ， 

而 是 一 个 生成 器 ， 按 需 生 成 re.Matchobject 实例 。 如 果 有 很 多 匹配 ， 

re.finditer 函数 能 节省 大 量 内 存 。 我 们 要 使 用 这 个 函数 让 第 4 版 

n 类 变 得 懒 懈 ， 即 只 在 需要 时 才 生 成 下 一 个 单词 。 代 码 如 示例 14-7 
o 


示例 14-7 sentence_gen2.py: 在 生成 器 函数 中 调用 re.finditer Æ 
Marat, SCHL Sentence 类 


import re 
import reprlib 


RE_WORD = re.compile('\wt') 


class Sentence: 


def _ init__(self, text): 
self.text = text @ 


def _repr_ (self): 
return 'Sentence(%s)' % reprlib.repr(self.text) 


def _iter_ (self): 
for match in RE_WORD.finditer(self.text): @ 
yield match.group() © 


@ 不 再 需要 words 列表 。 


@ finditer 函数 构建 一 个 迭代 器 ， 包 含 self.text 中 匹配 RE_WORD 的 
单词 ， 产 出 Matchobject 实例 。 


© match.group() 方法 从 Matchobject 实例 中 提取 匹配 正则 表达 式 的 具 
体 文 本 。 


生成 器 函数 已 经 极 大 地 简化 了 代码 ， 但 是 使 用 生成 器 表达 式 甚 至 能 把 代码 变 
得 更 简短 。 
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简单 的 生成 器 函数 ， 如 前 面 的 Sentence 类 中 使 用 的 那个 〈 见 示例 14- 

7) ， 可 以 蔡 换 成 生成 器 表达 式 。 

生成 器 表达 式 可 以 理解 为 列表 推导 的 惰性 版 本 不 会 迫切 地 构建 列表 ， 而 是 
返回 一 个 生成 器 ， 按 需 懈 性 生成 元 素 。 也 就 是 说 ， 如 果 列 表 推 导 是 制造 列表 
的 工厂 ， 那 么 生成 器 表达 式 就 是 制造 生成 器 的 工厂 。 


示例 14-8 演示 了 一 个 简单 的 生成 右 表 达 式 ， 并 且 与 列表 推导 做 了 对 比 。 


示例 14-8” 先 在 列表 推导 中 使 用 gen_AB 生成 器 函数 ， 然 后 在 生成 器 表 
达 式 中 使 用 


>>> def gen_AB(): # @ 

; print('start') 
yield 'A' 
print('continue') 
yield 'B' 
print('end.') 


>>> resi = [x*3 for x in gen_AB()] #90 
start 
continue 
end. 
>>> for i in resi: #0 
print('-->', i) 


--> AAA 
--> BBB 
>>> res2 = (x*3 for x in gen_AB()) # 四 
>>> res2 #0 
<generator object <genexpr> at 0x10063c240> 
>>> for iin res2: #06 

print('-->', i) 


continue 
--> BBB 
end. 


@ gen_AB KAN mati 14-6 中 的 一 样 。 


O 列表 推导 迫切 地 迭代 gen_AB() 函数 生成 的 生成 器 对 象 产 出 的 元 素 : 'A' 
和 'B'。 注 意 ， 下 面 的 输出 是 start、continue 和 end.。 


© 这 个 For 循环 迭代 列表 推导 生成 的 res1 列表 。 


@ 把 生成 器 表达 式 返 回 的 值 赋值 给 res2。 只 需 调 用 gen_AB() 函数 ， 虽 然 
调用 时 会 返回 一 个 生成 器 ， 但 是 这 里 并 不 使 用 。 

O res2 是 一 个 生成 器 对 象 。 

A for 循环 迭代 res2 时 ，gen_AB 函数 的 定义 体 才 会 真正 执行 。for 
首 环 每 次 迭代 时 会 隐 式 调用 next (res2)， 前 进 到 gen_AB 函数 中 的 下 一 


+ yield 语句 。 注 意 ，gen_AB 函数 的 输出 与 for 循环 中 print 函数 的 输 
出 夹杂 在 一 起 。 


im 


可 以 看 出 ， 生 成 器 表达 式 会 产 出 生成 器 ， 因 此 可 以 使 用 生成 器 表达 式 进一步 
减少 Sentence 类 的 代码 ， 如 示例 14- 9 所 示 。 


示例 14-9 sentence_genexp.py: 使 用 生成 器 表达 式 实现 Sentence 类 


import re 
import reprlib 


RE_WORD = re.compile('\w+') 


class Sentence: 


def _ init eer text): 
self.text = text 


def _repr_ (self): 
return 'Sentence(%s)' % reprlib.repr(self.text) 


def _iter_ (self): 
return (match.group() for match in RE_WORD.finditer(self.text)) 


与 示例 14-7 唯一 的 区 别 是 __iter__ 方 法， 这 里 不 是 生成 器 函数 了 (没有 
yield) ， 而 是 使 用 生成 器 表达 式 构 建生 成 器 ， 然 后 将 其 返回 。 不 过 ， 最 终 
的 效果 一 样 : 调用 __iter__ 方法 会 得 到 一 个 生成 器 对 象 。 


生成 器 表达 式 是 语法 糖 ， 完 全 可 以 蔡 换 成 生成 右 H, 不 过 有 了 时 使 用 生成 姨 
表达 式 更 便利 。 下 一 节 说 明生 成 器 表达 式 的 用 途 


14.7 何 时 使 用 生成 器 表达 式 


在 示例 10-16 中 ， 为 了 实现 Vector 类 ， 我 用 了 几 个 生成 器 表达 式 ， 
_eq `、_ hash 、 abs » angle » angles » format »__add__ 
和 mul _ 方法 中 各 有 一 个 生成 器 表达 式 。 在 这 些 方法 中 使 用 列表 推导 也 
行 ， 不 过 立即 返回 的 列表 要 使 用 更 多 的 内 存 。 


通过 示例 14-9 可 知 ， 生 成 器 表达 式 是 创建 生成 器 的 简 少 句法 ， 这 样 无 需 先 定 
义 画 数 再 调用 。 不 过 ， 生 成 器 函数 灵活 得 多 ， 可 以 使 用 多 个 语句 实现 复杂 的 
逻辑 ， 也 可 以 作为 协 程 使 用 (参见 第 16 章 ) 。 


遇 到 简单 的 情况 时 ， 可 以 使 用 生成 器 表达 式 ， 因 为 这 样 扫 一 眼 就 知道 代码 的 
作用 ， 如 Vector 类 的 示例 所 示 。 


根据 我 的 经 验 ， 选 择 使 用 哪 种 句法 很 容易 判断 ， 如果 生成 器 表达 式 要 分 成 多 
行 写 ， 我 倾向 于 定义 生成 右 男 数 ， 以 便 提 高 可 读 性 。 此 外 ， 生 成 句 函 数 有 名 
称 ， 因 此 可 以 重用 。 


A 句法 提示 


如 果 画 数 或 构造 方法 只 有 一 个 参数 ， 传 入 生成 器 表达 式 时 不 用 写 一 对 调 
用 函数 的 括号 ， 再 写 一 对 括号 围 住 生 成 器 表达 式 ， 只 写 一 对 括号 就 行 
了 ， 如 示例 10-16 F mul ”方法 对 Vector 构造 方法 的 调用 ， 转 摘 
如 下 。 然 而 ， 如 果 生 成 器 表达 式 后 面 还 有 其 他 参数 ， 那 么 必须 使 用 括号 
围 住 ， 否 则 会 抛 出 SyntaxError 异常 : 


def _mul_ (self, scalar): 
if isinstance(scalar, numbers.Real): 
return Vector(n * scalar for n in self) 


else: 
return NotImplemented 


目前 所 见 的 Sentence 类 示例 说 明了 如 何 把 生成 器 当 作 上 典型 的 迭代 器 使 用 ， 
即 从 集合 中 获取 元 素 。 不 过 ， 生 成 器 也 可 用 于 生成 不 受 数 据 源 限制 的 值 。 下 
一 下 会 举例 说 明 。 


14.8 “ 另 一 个 示例 : 等 差 数 列 生 成 器 


典型 的 迭代 器 模式 作用 很 简单 一 一 遍历 数据 结构 。 不 过 ， 即 便 不 是 从 集合 
获取 元 素 ， 而 是 获取 序列 中 即时 生成 的 下 一 个 值 时 ， 也 用 得 到 这 种 基于 方法 
的 标准 接口 。 例 如 ， 内 置 的 range 函数 用 于 生成 有 穷 整数 等 差 数 列 

(Arithmetic Progression, AP) , itertools.count 函数 用 于 生成 无 穷 等 
差 数 列 。 


下 一 节 会 说 明 itertools.count 函数， 本 节 探 讨 如 何 生成 不 同 数字 类 型 
的 有 穷 等 差 数 列 。 


下 面 我 们 在 控制 台中 对 稍 后 实现 的 ArithmeticProgression 类 做 一 些 测 
试 ， 如 示例 14-10 所 示 。 这 里 ， 构 造 方法 的 签名 
ArithmeticProgression(begin, step[, end]) ° range() 函数 与 
这 个 ArithmeticProgression 类 的 作用 类 似 ， 不 过 签名 是 
range(start，stop[，step])。 我 选择 使 用 不 同 的 签名 是 因为 ， 创 建 

等 差 数 列 时 必须 指定 公差 (step) ， 而 末 项 (end) 是 可 选 的 。 我 还 把 参数 


ral 


的 名 称 由 start/stop 改 成 了 begin/end， 以 明确 表明 签名 不 同 。 在 示例 
14-10 里 的 每 个 测试 中 ， 我 都 调用 了 list() 函数 ， 用 于 查看 生成 的 值 。 


示例 14-10 演示 ArithmeticProgression 类 的 用 法 


>>> ap = ArithmeticProgression(0, 

>>> list(ap) 

[0, 1, 2] 

>>> ap = ArithmeticProgression(1, 

>>> list(ap) 

[1.0, 1.5, 2.0, 2.5] 

>>> ap = ArithmeticProgression(0, 1/3, 1) 

>>> list(ap) 

[0.0, 0.3333333333333333, 0.6666666666666666 |] 

>>> from fractions import Fraction 

>>> ap = ArithmeticProgression(0, Fraction(1, 3), 1) 
>>> list(ap) 

[Fraction(0, 1), Fraction(1, 3), Fraction(2, 3)] 

>>> from decimal import Decimal 

>>> ap = ArithmeticProgression(0, Decimal('.1'), .3) 
>>> list(ap) 

[Decimal('®.0'), Decimal('0.1'), Decimal('0.2')] 


注意 ， 在 得 到 的 等 差 数 列 中 ， 数 字 的 类 型 与 begin 或 step 的 类 型 一 致 。 
如 果 需 要 ， 会 根据 Python 算术 运算 的 规则 强制 转换 类 型 。 在 示例 14-10 中 ， 
有 int、 float ~ Fraction 和 Decimal 数字 组 成 的 列表 。 


示例 14-11 列 出 的 是 ArithmeticProgression 类 的 实现 。 
示例 14-11 ArithmeticProgression 类 


class ArithmeticProgression: 


def _ init__(self, begin, step, end=None): @ 
self.begin = begin 
self.step = step 
self.end = end # None -> 无 穷 数 列 


__iter__(self): 


result = type(self.begin + self.step)(self.begin) @ 
forever = self.end is None © 
index = 0 


while forever or result < self.end: ©@ 
yield result © 
index += 1 
result = self.begin + self.step * index © 


@ init 方法 需要 两 个 参数 : begin 和 step ° end 是 可 选 的 ， 如 果 值 
是 None， 那 么 生成 的 是 无 穷 数 列 。 


@ 这 一 行 把 self. begin 赋值 给 result， 不 过 会 先 强 制 转换 成 前 面 的 加 
法 算式 得 到 的 类 型 。10 


10python 2 内 置 了 coerce() HA, Ait Python 3 没有 内 置 。 开 发 者 觉得 没 必要 内 置 ， 因 为 算术 运 
算 符 会 隐 式 应 用 数值 强制 转换 规则 。 所 以 ， 为 了 让 数列 的 首 项 与 其 他 项 的 类 型 一 样 ， 我 能 想到 最 好 
的 方式 是 ， 先 做 加 法 运算 ， 然 后 使 用 计算 结果 的 类 型 强制 转换 生成 的 结果 。 我 在 Python Bp 件 列表 
问 了 这 个 问题 ， Steven D'Aprano # 给 出 了 妙 极 的 答复 。 


@ 为 了 提高 可 读 性 ， 我 们 创建 了 forever 变量 ， 如 果 self. end 属性 的 值 
Æ None, HA forever 的 值 是 True， 因 此 生成 的 是 无 穷 数 列 。 


O 这 个 循环 要 么 一 直 执行 下 去 ， 要 么 当 result 大 于 或 等 于 self .end 时 
结束 。 如 果 循 环 退 出 了 ， 那 么 这 个 函数 也 随 之 退出 。 


日 生成 当前 的 result 值 。 


O 计算 可 能 存在 的 下 一 个 结 末 。 这 个 值 可 能 永远 不 会 产 出 ， 因 为 while 循 
环 可 能 会 终止 。 


在 示例 14-11 中 的 最 后 我 没有 直接 使 用 self .step 不 断 地 增加 
result， 而 是 EAA are 变量 ,把 self.begin 5 self.step $i 
index 的 乘积 相 加 ， 计 算 result 的 各 个 值 ， 以 此 降低 处 理 浮 点 数 时 累积 
效应 致 错 的 风险 。 


不 例 14-11 中 定义 的 ArithmeticProgression 类 能 按 预 期 那样 使 用 。 这 
是 个 简单 的 示例 ， 说 明了 如 何 使 用 生成 器 函数 实现 特殊 的 __iter_ ”方法 。 
然而 ， 如 果 一 个 类 只 是 为 了 构建 生成 器 而 去 实现 __iter_ ”方法 ， 那 还 不 如 
使 用 生成 器 画 数 。 毕竟 ， 生 成 器 函数 是 制造 生成 器 的 工厂 。 


示例 14-12 中 定义 了 一 个 名 为 aritprog_gen 的 生成 器 函数 ， 作 用 与 
ArithmeticProgression 类 一 样 ， 只 不 过 代码 量 更 少 。 如 果 把 
ArithmeticProgression 类 换 成 aritprog_gen HA, afi] 14-10 中 
的 测试 也 都 能 通过 。 苇 


1 本 书 源码 仓库 中 的 14-it-generator/ 目录 里 包含 doctest， 以 及 一 个 aritprog_runner.py 脚本 ， 用 于 测试 
aritprog*.py 脚本 的 所 有 版 本 。 


示例 14-12 aritprog\_gen 生成 器 函数 


def aritprog_gen(begin, step, end=None): 
result = type(begin + step)(begin) 
forever = end is None 
index = 0 
while forever or result < end: 


yield result 
index += 1 
result = begin + step * index 


示例 14-12 RE, DMA BCE, PEEP ATES AE eas °C FD 
会 使 用 itertools 模块 实现 ， 那 个 版 本 更 棒 。 


使 用 itertoo1ls 模 块 生成 等 差 数 列 


Python 3.4 中 的 itertools 模块 提供 了 19 个 生成 器 函数 ， 结 合 起 来 使 用 能 
实现 很 多 有 趣 的 用 法 。 


例如 ，itertools,count 函数 返回 的 生成 器 能 生成 多 个 数 。 如 果 不 传 入 参 
žr, itertools.count 函数 会 生成 从 零 开 始 的 整数 数列 。 不 过 ， 我 们 可 以 
提供 可 选 的 start Ml step 值 ， 这 样 实现 的 作用 与 aritprog_gen 函数 十 
分 相似 : 


import itertools 
gen = itertools.count(1, .5) 
next (gen) 


next (gen) 


next (gen) 


next (gen) 


然而 ，itertools .count 函数 从 不 停止 ， 因 此 ， 如 果 调 用 
list(count()), Python 会 创建 一 个 特别 大 的 列表 ， 超 出 可 用 内 存 ， 在 调 
用 失败 之 前 ， 电 脑 会 着 狂 地 运转 。 


不 过 ，itertools.takewhile 函数 则 不 同 ， 它 会 生成 一 个 使 用 另 一 个 生 
成 器 的 生成 器 ， 在 指定 的 条 件 计 算 结 果 为 False 时 停止 。 因 此 ， 可 以 把 这 
两 个 函数 结合 在 一 起 使 用 ， 编 写 下 述 代码 : 


>>> gen = itertools.takewhile(lambda n: n < 3, itertools.count(1, .5)) 
>>> list(gen) 


[1, 1.5, 2.0, 2.5] 


示例 14-13 利用 takewhile 和 count 画 数 ， 写 出 的 代码 流畅 而 简短 。 
示例 14-13 aritprog_v3.py: 与 前 面 的 aritprog_gen 函数 作用 相同 


import itertools 


def aritprog_gen(begin, step, end=None): 
first = type(begin + step)(begin) 


ap_gen = itertools.count(first, step) 
if end is not None: 

ap_gen = itertools.takewhile(lambda n: n < end, ap_gen) 
return ap_gen 


注意 ， 示 例 14-13 中 的 aritprog_gen 不 是 生成 器 函数 ， 因 为 定义 体 中 没 
有 yield 关键 字 。 但 是 它 会 返回 一 个 生成 器 ， 因 此 它 与 其 他 生成 器 函数 一 
样 ， 也 是 生成 器 工厂 函数 。 


示例 14-13 想 表 达 的 观点 是 ， 实 现 生成 历时 要 知道 标准 库 中 有 什么 可 用 ， 否 
则 很 可 能 会 重新 发 明 轮子 。 鉴 于 此 ， 下 一 市 会 介绍 一 些 现成 的 生成 器 函数 。 


14.9 ”标准 库 中 的 生成 器 画 数 


标准 库 提 供 了 很 多 生成 器 ， 有 用 于 逐 行 欠 代 纯 文 本 文件 的 对 象 ， 还 有 出 色 的 
os .Walk 函数 。 这 个 函数 在 遍历 目录 树 的 过 程 中 产 出 文件 名 ， 因 此 递归 搜 
索 文件 系统 像 for 循环 那样 简单 。 


os.walk 生成 器 函数 的 作用 令 人 赞叹 ， 不 过 本 万 专 注 于 通用 的 函数 : 参数 
为 任意 的 可 送 代 对 象 ， 返 回 值 是 生成 器 ， 用 于 生成 选中 的 、 计 算出 的 和 重新 
排列 的 元 素 。 在 下 述 几 个 表格 中 ， 我 会 概述 其 中 的 24 个 ， 有 些 是 内 置 的 ， 
有 些 在 itertools 和 functools 模块 中 。 为 了 方便 ， 我 按照 函数 的 高 阶 
功能 分 组 ， 而 不 管 画 数 是 在 哪里 定义 的 。 


` ARET READE ANT ATH ABW, (EERE A SB CD A 
用 ， 因 此 快速 概览 一 遍 能 让 你 知道 有 什么 函数 可 用 。 


第 一 组 是 用 于 过 滤 的 生成 器 函数 : 从 输入 的 可 迭代 对 象 中 产 出 元 素 的 子 集 ， 
而 且 不 修改 元 素 本 身 。 本 章 前 面 的 14.8.1 节 用 过 itertools.takewhile 
函数 。 与 takewhile 函数 一 样 ， 表 14-1 中 的 大 多 数 函 数 都 接受 一 个 断言 参 


数 (predicate) 。 这 个 参数 是 个 布尔 函数 ， 有 一 个 参数 ， 会 应 用 到 输入 
中 的 每 个 元 素 上 ， 用 于 判断 元 素 是 否 包含 在 输出 中 。 


表 14-1: APRN + as SL 


cS 
storto] | compress(it, 放行 处 理 两 个 可 迭代 的 对 象 ， 如 果 selector it ' 
selector_it) 素 出 it 中 对 应 的 元 素 
itertools dropwhile(predicate, H it, 跳 过 predicate 的 计算 结 
it) 然后 产 出 剩 下 的 各 个 元 素 (不 青 
把 it PISA NICAL predicate, WA 
(内 置 ) |filter(predicate, it) |predicate(item) 返回 真 值 ， 那 么 产 出 对 应 的 元 素 ， 如 
果 predicate Æ None, F “出 真 值 元 素 
itertools filterfalse(predicate, 与 filter 函数 的 作用 类 似 ， 不 过 predicate 的 逻辑 是 
it) 相反 的 : predicate 返回 假 值 时 产 出 对 应 的 元 素 


islice(it，stop) 或 产 出 it 的 切片 ， 作 用 类 似 于 s[:stop] 或 
itertools | islice(it, start, s[start:stop:step], 不 过 it 可 以 是 任何 可 迭代 的 对 
stop, step=1) 象 ， 而 且 这 个 函数 实现 的 是 惰性 操作 


takewhile(predicate, eas are 时 产 出 对 应 的 元 素 ， 然 后 立即 停 


it) ， 不 再 继续 检查 


itertools 


示例 14-14 在 控制 台中 演示 表 14-1 中 各 个 函数 的 用 法 。 
示例 14-14 ”演示 用 于 过 滤 的 生成 器 函数 


>>> def vowel(c): 
return c.lower() in ‘aeiou' 


>>> list(filter(vowel, 'Aardvark')) 

['A', 'a', 'a'] 

>>> import itertools 

>>> list(itertools.filterfalse(vowel, 'Aardvark')) 
['r', "d"; 'v', 'r', 'k'] 

>>> list(itertools.dropwhile(vowel, 'Aardvark')) 
[ry ‘d', 'v', ‘aly ha er 'k'] 


>>> list(itertools.takewhile(vowel, 'Aardvark')) 

['A', 'a'] 

>>> list (itertoals. compress('Aardvark', (1,0,1,1,0,1))) 
['A', aaa ‘d', "9 '] 

>>> list(itertools.islice(' Aardvark', 4)) 

['A', ‘a', i gear 'd'] 

>>> list(itertools.islice('Aardvark', 4, 7)) 

['v', raty e] 

>>> list(itertools.islice('Aardvark', 1, 7, 2)) 

['a', 'd', 'a'] 


下 一 组 是 用 于 映射 的 生成 器 函数 ， 在 输入 的 单个 可 迭代 对 象 (map 和 
starmap 函数 处 理 多 个 可 迭代 的 对 象 ) 中 的 各 个 元 素 上 做 计算 ， 然 后 返回 
结果 。“ 表 14-2 中 的 生成 器 函数 会 从 输入 的 可 迭代 对 象 中 的 各 个 元 素 中产 出 
| o 如 果 输 入 来 自 多 个 可 和 迭代 的 对 象 ， 第 一 个 可 迭代 的 对 象 到 头 后 就 
至 止 输出 。 


了 2 这 里 所 说 的 “映射 "与 字典 没有 关系 ， 而 与 内 置 的 map 函数 有 关 。 


表 14-2: 用 于 映射 的 生成 器 函数 


bccunulatelit。 | 产 出 累积 的 总 和 ， 如 果 提 供 了 runc， 那 么 把 前 两 个 元 素 
itertools ， | 传 给 它 ， 然 后 把 计算 结果 和 下 一 个 元 素 传 给 它 ， 以 此 类 
推 ， 最 后 产 出 结果 


enumerate(iterable, 产 出 由 两 个 元 素 组 成 的 元 组 ， 结构 是 (index, item) i 


D S 


start=0) index 从 start 开始 计数 ，item 则 从 iterable 中 获取 


l 迭代 的 对 象 ， 那 么 func 必须 能 接受 N 个 参数 ， 而 
[it2, EET itN]) 4 日 名 个 订 汽 代 的 对 象 


i J 各 个 元 素 传 给 func， 产 出 结 采 ; MAER 
itertools | starmap(func, it) 对 象 应 该 产 出 可 迭代 的 元 素 iit， 然 后 以 func(*iit) 这 币 
形式 调 J func 


示例 14-15 演示 itertools.accumulate 函数 的 几 个 用 法 。 


(内 置 ) 
setae cies 把 it 中 的 各 个 元 素 传 给 func， 产 出 结果 ;， 如果 传 入 N 个 
(内 置 ) ali dtt; 要 


示例 14-15 演示 itertools.accumulate 生成 器 画 数 


sample = [5, 4, 2, 8, 7, 6, 3, 0, 9, 1] 
import itertools 
list(itertools.accumulate(sample)) # @ 

9, 11, 19, 26, 32, 35, 35, 44, 45] 
list(itertools.accumulate(sample, min)) # © 
4, 2, 2, 2, 2, 2, 0, 0, 0] 


list(itertools.accumulate(sample, max)) # ® 

5, 5, 8, 8, 8, 8, 8, 9, 9] 

import operator 

list(itertools.accumulate(sample, operator.mul)) # @ 
20, 40, 320, 2240, 13440, 40320, 0, 0, 0] 
list(itertools.accumulate(range(1, 11), operator.mul) ) 
2, 6, 24, 120, 720, 5040, 40320, 362880, 3628800] # © 


@ 计算 总 和 。 

@ 计算 最 小 值 。 

日 计算 最 大 值 。 

O 计算 乘积 

日 从 1! 到 10!， 计 算 各 个 数 的 阶乘 。 

K 14-2 中 剩余 函数 的 演示 如 示例 14-16 所 示 。 
示例 14-16 ”演示 用 于 映射 的 生成 器 函数 


>>> list(enumerate('albatroz', 1)) # ©@ 

[(1, ‘a'), (2, '1'), (3, 'b'), (4, 'a'), (5, 't'), (6, 'r'), (7, 0 )， 

(8, '2')] 

>>> import operator 

>>> list(map(operator.mul, range(11), range(11))) # © 

[0, 1, 4, 9, 16, 25, 36, 49, 64, 81, 100] 

>>> list(map(operator.mul, range(11), [2, 4, 8])) #90 

[0, 4, 16] 

>>> list(map(lambda a, b: (a, b), range(11), [2, 4, 8])) #0 

[(0, 2), (41, 4), (2, 8)] 

>>> import itertools 

>>> list(itertools.starmap(operator.mul, enumerate('albatroz', 1))) # © 

['a', 'll', 'bbb', ‘aaaa', ‘ttttt', ‘rrrrrr', 'ooooooo', 'zzzzzzzz'] 

>>> sample = [5, 4, 2, 8, 7, 6, 3, 0, 9, 1] 

>>> list(itertools.starmap(lambda a, b: b/a, 
enumerate(itertools.accumulate(sample), 1))) #0 

[5. 0, 4.5, 3.6666666666666665, 4.75, 5.2, 5.333333333333333, 

5.0, 4. 375, 4.888888888888889, 4.5] 


@ 从 开始， 为 单词 中 的 字母 编写。 
Ə 从 9 到 10， 计 算 各 个 整数 的 平方 。 


O 计算 两 个 可 迭代 对 象 中 对 应 位 置 上 的 两 个 元 素 之 积 ， 元 素 最 少 的 那个 可 和 迭 
代 对 象 到 头 后 束 停 止 。 


O 作用 等 同 于 内 置 的 zip 函数 。 

© 从 1 开始， 根据 字母 所 在 的 位 置 ， 把 字母 重复 相应 的 次 数 。 
@ 计算 平均 值 。 
接 下 来 这 一 组 是 用 于 合并 的 生成 絮 函 数 ， 这 些 函 数 都 从 输入 的 多 个 可 达 代 对 
象 中 产 出 元 素 。chain 和 chain.from iterable 按 顺 序 (一 个 接 一 个 ) 

处 理 输入 的 可 迭代 对 象 ， 而 product、zip 和 zip_longest 并 行 处 理 输 

入 的 各 个 可 迭代 对 象 。 如 表 14-3 所 示 。 


表 14-3: 合并 多 个 可 迭代 对 象 的 生成 器 函数 


E 产 出 ita 中 的 所 有 元 素 ， 然 后 产 出 ite 中 的 所 有 元 


itertools|chain(iti, ..., i z 


素 ， 以 此 类 推 ， 无 颖 连接 在 一 起 


产 出 it 生成 的 各 个 可 迭代 对 象 中 的 元 素 ， 一 个 接 一 
itertools | chain.from_iterable(it) Al 无 颖 连接 在 一 起 ; alte 应 该 产 出 可 迭代 的 元 素 ， 
bali a ee BT 


计算 笛 卡 儿 积 : 从 和 输入 的 各 个 可 迭代 对 象 中 获取 元 

product(iti, ..., itN,  ， 合 并 成 由 NN Soc Raat c28, SREK for 

repeat=1) 不 效果 一 样 ，repeat 指明 重复 处 理 多 少 次 输入 的 
PERI R 


itertools 


TPT IE A ALS OT R RARO 素 ， 产 出 由 
个 元 素 组 成 的 元 组 ， 只 要 有 一 个 可 迭代 的 对 象 到 
了 ， 就 默默 地 停止 


并 行 从 输入 的 各 个 可 迭代 对 象 中 获取 元 素 ， 产 蝇 
企 元 素 组 成 的 元 组 ， 等 到 最 长 的 可 过 代 对 象 到 ; 


itN, fillvalue=N aR u 
itn, fillvalue=None) | 停止 ， 空 缺 的 值 使 用 fillvalue 填充 


Zip_longest(iti, ..., 


itertools 


示例 14-17 展示 itertools.chain 和 zip 生成 器 函数 及 其 同胞 的 用 法 © 
再 次 提醒 ，zip 函数 的 名 称 出 自 zip fastener 或 zipper (拉链 ， 与 ZIP 压缩 没 
BRA) 0 “HAY zip 函数 ”附注 栏 介 绍 过 zip 和 
itertools.zip_longest 函数 。 


示例 14-17 ”演示 用 于 合并 的 生成 器 函数 


>>> list(itertools.chain('ABC', range(2))) #@0 

['A', 'B', 'C', 0, 1] 

>>> list(itertools.chain(enumerate('ABC'))) # © 

[(0, 'A'), (1, 'B'), (2, 'C')] 

>>> list(itertools.chain.from_iterable(enumerate('ABC'))) #60 
[9, 'A', 1, 'B', 2, 'C'] 

>>> list(zip('ABC', range(5))) #0 


[('A', ©), ('B', 1), ('C', 2)] 

>>> list(zip('ABC', range(5), [10, 20, 30, 40])) # © 

[('A', ©, 10), ('B', 1, 20), ('C', 2, 30)] 

>>> list(itertools.zip_longest('ABC', range(5))) #0 

[('A', ©), ('B', 1), ('C', 2), (None, 3), (None, 4)] 

>>> list(itertools.zip_longest('ABC', range(5), fillvalue='?')) # ©@ 
[('A', ©), ('B', 1), ('C', 2), ('?', 3), ('?', 4)] 


@ 调用 chain 函数 时 通 稼 传 入 两 个 或 更 多 个 可 迭代 对 象 。 
@ 如 有 果 只 传 入 一 个 可 迭代 的 对 象 ， 那 么 chain 函数 没什么 用 。 


四 但 是 chain.from_iterable 函数 从 可 和 迭 代 的 对 象 中 获取 每 个 元 素 ， 然 
后 按 顺序 把 元 素 连接 起 来 ， 前 提 是 各 个 元 素 本 身 也 是 可 迭代 的 对 象 。 


O zip 常用 于 把 两 个 可 和 迭代 的 对 象 合并 成 一 系列 由 两 个 元 素 组 成 的 元 组 。 


@ zip 可 以 并 行 处 理 任意 数量 个 可 迭代 的 对 象 ， 不 过 只 要 有 一 个 可 迭代 的 对 
REAT, EREMIE ° 


© itertools.zip_longest 函数 的 作用 与 zip 类 似 ， 不 过 输入 的 所 有 可 
迭代 对 象 都 会 处 理 到 头 ， 如 果 需 要 会 填充 None 。 


@ fillvalue 关键 字 参 数 用 于 指定 填充 的 值 。 


itertools.product 生成 器 是 计算 笛 卡 儿 积 的 惰性 方式 ;在 2.2.3 节 ， 我 
们 在 多 个 for 子 句 中 使 用 列表 推导 计算 过 笛 卡 儿 积 。 此 外 ， 也 可 以 使 用 包含 
多 个 for 子 句 的 生成 规 表 达 式 ， 以 惰性 方式 计算 笛 卡 儿 积 。 示 例 14-18 演示 
itertools.product 函数 的 用 法 。 


示例 14-18 演示 itertools.product 生成 器 函数 


>>> list(itertools.product('ABC', range(2))) # 
[('A', ©), ('A', 1), ('B', ©), ('B', 1), ('C', 9), 
>>> suits = 'spades hearts diamonds clubs'.split() 
>>> list(itertools.product('AK', suits)) #@ 
[('A', 'spades'), ('A', 'hearts'), ('A', 'diamonds'), ('A', ‘clubs'), 
('K', 'spades'), ('K', 'hearts'), ('K', 'diamonds'), ('K', 'clubs')] 
>>> list(itertools.product('ABC')) # © 

COA CB). (Cs) 

>>> list(itertools.product('ABC', repeat=2) ) 

[('A', 'A'), ('A', 'B'), ('A', CD) ('B', 
人 

>>> list(itertools.product(range(2), repeat=3) ) 

[(9, 0, 0), (0, 0, 1), (0, 1, 0), (0, 1, 1), (1, 0, 0), 

(1, 0, 1), (4, 1, 0), (1, 1, 1)] 

>>> rows = itertools.product('AB', range(2), repeat=2) 

>>> for row in rows: print(row) 


('c', 1)] 
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~ 


@ 三 个 字符 的 字符 串 与 两 个 整数 的 值 域 得 到 的 笛 卡 儿 积 是 六 个 元 组 (因为 3 
* 2 等 于 6) 。 


@ 两 张 牌 ('AK') 与 四 种 花色 得 到 的 笛 卡 儿 积 是 八 个 元 组 。 


© 如 果 传 入 一 个 可 迭代 的 对 象 ，product 函数 产 出 的 是 一 系列 只 有 一 个 元 


素 的 元 组 ， 不 是 特别 有 用 。 


O repeat=N 关键 字 参 数 告诉 product É 
代 对 象 。 


有 些 生成 侨 函 数 会 从 一 个 元 素 中 产 出 多 个 值 ， 


14-4 所 示 。 


函数 重复 W 次 处 理 输入 的 各 个 可 和 迭 


表 14-4: 把 输入 的 各 个 元 素 扩 展 成 多 个 输出 元 素 的 生成 器 函数 


模块 RL 


itertools | combinations(it, out_len) 


说 明 


= 出 的 out_len 个 元 素 组 合 在 一 起 ， 


combinations_with_replacement(it, 
out_len) 


count(start=0, step=1) 


itertools 


aa 


permutations(it, out_len=None) 
repeat(item, [times] ) 


itertools 模块 中 的 count 和 repeat 函数 返回 的 生成 器 “无 中 生 有 ”: 


HAY out_len OTR A Bei, 
， 包 含 相 同 元 素 的 组 合 


从 start 台 不 断 产 出 数字 ， 按 Step 指定 


的 步 幅 增加 


个 元 素 ， 存 储 各 个 元 素 的 
顺序 重复 不 断 地 产 出 各 个 元 


E out_len 个 it 产 出 的 元 素 排列 在 一 起 
然后 产 出 这 些 排 列 ;， out_len 的 默 1 
于 len(list(it)) 


重复 不 断 地 产 出 指定 的 元 素 ， 除 非 提 供 
times， 指 定 次 数 


两 个 函数 都 不 接 有 党 可 从 代 的 对 象 作为 输入 。14.8.1 市 见 过 


itertools.count 2° cycle 生成 器 会 备份 输入 的 可 送 代 对 象 ， 然 


扩展 输入 的 可 迭代 对 象 ， 如 表 


这 


重复 产 出 对 象 中 的 元 素 。 示 例 14-19 演示 count ` repeat 和 cycle 


法 。 


示例 14-19 演示 count ` repeat 和 cycle 的 用 法 


>>> ct = itertools.count() # @ 
>>> next(ct) #@ 
0 


>>> next(ct), next(ct), next(ct) # © 

(1, 2, 3) 

>>> list(itertools.islice(itertools.count(1, .3), 3)) #0 
[1, 1.3, 1.6] 

>>> cy = itertools.cycle('ABC') # © 

>>> next(cy) 

"A! 


>>> list(itertools.islice(cy, 7)) # @ 

['B', Erg 'A', "B', {Gr 'A', 'B'] 

>>> rp = itertools.repeat(7) # ©@ 

>>> next(rp), next(rp) 

(7, 7) 

>>> list(itertools.repeat(8, 4)) #@0 

[8, 8, 8, 8] 

>>> list(map(operator.mul, range(11), itertools.repeat(5))) # © 
[0, 5, 10, 15, 20, 25, 30, 35, 40, 45, 50] 


@ 使 用 count KAUI ct 生成 器 。 
@ 获取 ct 中 的 第 一 个 元 素 。 


© 不 能 使 用 ct 构建 列表 ， 因 为 ct 是 无 穷 的 ， 所 以 我 获取 接 下 来 的 3 个 元 


@ 如 果 使 用 islice 或 takewhile 函数 做 了 限制 ， 可 以 从 count 生成 器 
中 构建 列表 。 


© 使 用 'ABC' 构建 一 个 cycle 生成 器 ， 然 后 获取 第 一 个 元 素 一 一 'A'。 


只 有 受到 islice 函数 的 限制 ， 才 能 构建 列表 ; 这 里 获取 接 下 来 的 7 个 元 


@ 构建 一 个 repeat 生成 器 ， 始 终 产 出 数字 7。 


© fEA times 参数 可 以 限制 repeat 生成 器 生成 的 元 素数 量 : 这 里 会 生成 
4 次 数字 8。 


© repeat 函数 的 常见 用 途 : A map 函数 提供 固定 参数 ， 这 里 提供 的 是 乘 数 
5 o 


在 itertools 模块 的 文档 中 ，combinations、 
combinations_with_replacement 和 permutations 生成 器 函数 ， 
连同 product 函数 ， 称 为 组 合 学 生成 髓 (combinatoric generator) ° 
itertools.product 函数 和 其 余 的 组 合 学 函数 有 紧密 的 联系 ， 如 示例 14- 
20 FRAR ° 


示例 14-20 组合 学 生成 器 函数 会 从 输入 的 各 个 元 素 中产 出 多 个 值 


>>> list(itertools.combinations('ABC', 2)) #@0 

[('A', 'B'), ('A', 'C'), ('B', 'C')] 

>>> list(itertools.combinations_with_replacement('ABC', 
[('A', 'A'), ('A', "B"), ('A', 'C'), ('B', "B'), ('B', Li 1 


>>> list(itertools.permutations('ABC', 2)) #® 
[('A', 区 (‘A', OJy ('B', 'A'), ('B', Li 1 
>>> list(itertools.product('ABC', repeat=2)) 


O 'ABC' 中 每 两 个 元 素 (len( )==2) 的 各 种 组 合 ， 在 生成 的 元 组 中 ， 元 素 
的 顺序 无 关 紧 要 (可 以 视 作 和 集合 ) 。 


@ 'ABC' 中 每 两 个 元 素 (len( )==2) 的 各 种 组 合 ， 包 括 相 同 元 素 的 组 合 。 


© 'ABC' 中 每 两 个 元 素 (len( )==2) 的 各 种 排列 ， 在 生成 的 元 组 中 ， 元 素 
的 顺序 有 重要 意义 。 


© 'ABC' 和 'ABC' (repeat=2 的 效果 ) 的 簿 卡 儿 积 。 


本 节 要 讲 的 最 后 一 组 生成 器 函数 用 于 产 出 输入 的 可 达 代 对 象 中 的 全 部 元 素 ， 
不 过 会 以 某 种 方式 重新 排列 。 其 中 有 两 个 函数 会 返回 多 个 生成 器 ， 分 别 是 
itertools.groupby 和 itertools.tee。 这 一 组 里 的 另 一 个 生成 器 函 
数 ， 内 置 的 reversed 函数 ， 是 本 节 所 述 的 函数 中 唯一 一 个 不 接受 可 迭代 的 
对 象 ， 而 只 接受 序列 为 参数 的 函数 。 这 在 情理 之 中 ， 因 为 reversed 函数 从 
后 向 前 产 出 元 素 ， 而 只 有 序列 的 长 度 已 知 时 才能 工作 。 不 过 ， 这 个 画 数 会 按 
需 产 出 各 个 元 素 ， 因 此 无 需 创 建 反 转 的 副本 。 我 把 itertools.product 
函数 划分 为 用 于 合并 的 生成 器 ， 列 在 表 14-3 中 ， 因 为 那 一 组 函数 都 处 理 多 个 
可 迭代 的 对 象 ， 而 表 14-5 中 的 生成 絮 最 多 只 能 接受 一 个 可 迭代 的 对 象 。 


表 14-5: 用 于 重新 排列 元 素 的 生成 器 函数 


i 


itertools | groupby(it, key=None) 


产 出 由 两 个 元 素 组 成 的 元 素 ， 形 式 为 (key，gr 
1 key 是 分 组 标准 ，group 是 生成 器 ， JFS 
的 元 素 


eee or 从 后 向 前 ， 倒 序 产 出 seq 中 的 元 素 ; seg 必须 是 序列 ， 
Weed) 或 者 是 实现 了 _ reversed ”特殊 方法 的 对 象 


ae 产 出 一 个 由 n 个 生成 器 组 成 的 元 组 ， 每 个 生成 器 用 二 
tert | eet Tb hae) 独 产 出 输入 的 可 迁 代 对 象 中 的 


示例 14-21 演示 itertools.groupby AAA BAY reversed 函数 的 用 
法 。 注 意 ，itertools.groupby 假定 输入 的 可 迭代 对 象 要 使 用 分 组 标准 
排序 ， 即 使 不 排序 ， 至 少 也 要 使 用 指定 的 标准 分 组 各 个 元 素 。 


示例 14-21 itertools .groupby 函数 的 用 法 


>>> list(itertools.groupby('LLLLAAGGG')) # @ 

[('L', <itertools. grouper object at 0x102227ccO>), 

('A', <itertools._ grouper object at 0x102227b38>), 

('G', <itertools. grouper object at 0x102227b70>) | 

>>> for char, group in itertools.groupby('LLLLAAAGG'): # @ 
print(char, '->', list(group) ) 


L aS 下 LS ue 'L'] 

A Si ['A', 'A', 

G Si ['G', 'G', 'G'] 

>>> animals = ['duck', 'eagle', 'rat', 'giraffe', 'bear', 

'bat', 'dolphin', 'shark', 'lion'] 

>>> animals. sore (REY len) #890 

>>> animals 

['rat', 'bat', 'duck', 'bear', 'lion', ‘eagle', 'shark', 

"giraffe', 'dolphin'] 

>>> for length, group in itertools.groupby(animals, len): # @ 
print(length, '->', list(group) ) 


-> ['rat', 'bat'] 

-> ['duck', 'bear', 'lion'] 

-> ['eagle', 'shark'] 

-> ['giraffe', 'dolphin'] 

>>> for length, group in itertools.groupby(reversed(animals), len): # © 


>~IOI 


print(length, '->', list(group)) 


['dolphin', 'giraffe'] 
['shark', 'eagle'] 
['lion', 'bear', 'duck'] 
['bat', 'rat'] 


@ groupby 函数 产 出 (key, group_generator ) 这 种 形式 的 元 组 。 


@ 处 理 groupby WORE Æ RaR REAR: 这 里 在 外 层 使 用 for 循 
环 ， 内 层 使 用 列表 推导 。 


© H TH groupby 函数 ， 要 排序 输入 ; 这 里 按照 单词 的 长 度 排 序 。 


@ 再 次 遍历 key 和 group 值 对 ， 把 key 显示 出 来 ， 并 把 group 扩展 成 列 
表 。 


O 这 里 使 用 reverse ERa MANAI animals ° 


这 一 组 里 的 最 后 一 个 生成 器 函数 是 iterator ,tee， 这 个 函数 只 有 一 个 作 
FA: 从 输入 的 一 个 可 迭代 对 象 中 产 出 多 个 生成 器 ， 每 个 生成 器 都 可 以 产 出 输 
入 的 各 个 元 素 。 产 出 的 生成 器 可 以 单独 使 用 ， 如 示例 14-22 所 示 。 


示例 14-22 itertools.tee 函数 产 出 多 个 生成 器 ， 每 个 生成 器 都 可 
以 产 出 输入 的 各 个 元 素 


>>> list(itertools.tee('ABC')) 
[<itertools._tee object at 0x10222abc8>, <itertools._tee object at 
0x10222ac08> | 

>>> g1, g2 = itertools.tee('ABC') 
>>> next(gi) 

"AT 

>>> next(g2) 

"A! 

>>> next(g2) 

'B! 

>>> list(g1) 

['B', E] 

>>> list(g2) 

['c'] 

>>> list(zip(*itertools.tee('ABC'))) 
[('A', 'A'), ('B', 'B'), ('C', 'C')] 


TER. A AN Be EA I] E a KRA EEEH o EAEN 
数 的 优秀 特性 : 这 些 函 数 的 参数 都 是 生成 器 ， 而 返回 的 结果 也 是 生成 器 ， 


此 能 以 很 多 不 同 的 方式 结合 在 一 起 使 用 。 

既然 讲 到 了 这 个 话题 ， 那 就 介绍 一 下 Python 3.3 中 新 出 现 的 yie1d from 
语句 。 这 个 请 负 的 作用 就 是 把 不 同 的 生成 器 结合 在 一 起 使 用 。 

14.10 Python 3.3 中 新 出 现 的 句法 : yield from 


如 果 生 成 器 函数 需要 产 出 另 一 个 生成 器 生成 的 值 ， 传 统 的 解决 方法 是 使 用 骨 
套 的 for 循环 。 


例如 ， 下 面 是 我 们 目 己 实现 的 chain Eakas 


了 3 标准 库 中 的 itertools.chain 函数 是 使 用 C 语言 编写 的 。 


>>> def chain(*iterables): 
ia for it in iterables: 


for i in it: 
yield i 


>>> S = 'ABC' 

>>> t = tuple(range(3)) 
>>> list(chain(s, t)) 
['A', "B', 'C', 0, 1, 2] 


chain 生成 器 函数 把 操作 依次 交 给 接收 到 的 各 个 可 和 迭代 对 象 处 理 。 为 
HE, “PEP 380 — Syntax for Delegating to a Subgenerator2 引 入 了 一 个 新 句法 ， 
如 下 述 控 制 台中 的 代码 清单 所 示 ; 


>>> def chain(*iterables): 
ay for i in iterables: 
yield from i 


>>> list(chain(s, t)) 


['A', > ar 'C', 0, 1, 2] 


可 以 看 出 ，yield from 工 完全 代替 了 内 层 的 for 循环 。 在 这 个 示例 中 使 
Ħ yield from 是 对 的 ， 而 且 代 码 读 起 来 更 顺畅 ， 不 过 感觉 更 像 是 语法 
糖 。 除 了 代替 循环 之 外 ，yie1d from 还 会 创建 通道 ， 把 内 层 生 成 器 直接 与 
外 层 生成 器 的 客户 端 联 系 起 来 。 把 生成 器 当成 协 程 使 用 时 ， 这 个 通道 特别 重 
要 ， 不 仅 能 为 客户 端 代码 生成 值 ， 还 能 使 用 客户 端 代码 提供 的 值 。 第 16 章 
会 深入 讲解 协 程 ， 其 中 有 几 页 会 说 明 为 什么 yield from 不 只 是 语法 糖 而 
I 


—{ yield from 之 后 ， 我 们 回 过 头 继续 复习 标准 库 中 善于 处 理 可 述 代 对 
象 的 函数 。 


14.11 可 迭代 的 归 约 函数 


表 14-6 中 的 函数 都 接受 一 个 可 迭代 的 对 象 ， 然 后 返回 单个 结果 。 这 些 函 数 
WY JAZ) Baa > Ete” Ee SLB FR I” EBM o eS Brier es 
都 可 以 使 用 functools .reduce 函数 实现 ， 内 置 是 因为 使 用 它们 便于 解决 
常见 的 问题 。 此 外 ， 对 all 和 any 函数 来 说 ， 有 一 项 重要 的 优化 措施 是 
reduce 函数 做 不 到 的 : 这 两 个 男 数 会 短路 ( 即 一 旦 确定 了 结 末 束 立即 停止 
使 用 迭代 器 ) 。 参 见 示例 14-23 中 any 画 数 的 最 后 一 个 测试 。 


表 14-6: 读 取 迭 代 器 ， 返 回 单个 值 的 内 置 画 数 


it 中 的 所 有 元 素 都 为 真 值 时 返回 true, AMIE] False; all({]) 


返回 True 


要 it 中 有 元 素 为 真 值 就 返 , PWIA] False; any([]) 
j El False 


lee 返回 it 中 值 最 大 的 元 素 ; “key 是 排序 函数 ， 与 sorted RK 
F 如 果 可 迭代 的 对 象 为 空 ， 返 回 default 


[default=] ) 


2 it AEAU; Ahoy 是 排序 夯 数 ， 与 sorted 面 数 中 的 
$, MRIDER RAZ, E default 


[default=]) 


reduce(func, 把 前 两 个 元 素 传 给 func， 然 后 把 计算 结果 和 第 三 个 元 素 传 给 
functools | it, func， 以 此 类 推 ， 返 回 最 后 的 结果 ; 提供 了 initial, WE 
[initial]) | 当 作 第 一 个 元 素 传 入 
(ae) it, fat 中 所 有 元 素 的 总 和 ， 如 果 提 供 可 选 的 start， 会 把 它 加 上 ( 计 
= 算 浮 点 数 的 加 法 时 ， 可 以 使 用 math. fsum 函数 提高 精度 ) 


* 也 可 以 像 这 样 调用 : max(arg1，arg2，. ..，[key=?])， 此 时 返回 参数 中 的 最 大 值 。 


# 也 可 以 像 这 样 调 用 : min(argl，arg2，...，[key=?])， 此 时 返回 参数 中 的 最 小 值 。 


all 和 any 函数 的 操作 演示 如 示例 14-23 所 示 。 
示例 14-23 把 几 个 序列 传 给 all 和 any 函数 后 得 到 的 结 


>>> all([1, 2, 3]) 
True 
>>> all([1, 0, 3]) 


2, 3]) 
0, 3]) 


0.0]) 


>>> g = (n for n in [9 0.0, 7, 8]) 
>>> any(g) 

True 

>>> next(g) 

8 


10.6 节 更 为 深入 地 解释 过 functools .reduce 函数 。 


还 有 一 个 内 置 的 函数 接受 一 个 可 夫 代 的 对 象 ， 返 回 不 同 的 值 一 一 sorted。 
reversed 是 生成 器 函数 ， 与 此 不 同 ，sorted 会 构建 并 返回 真正 的 列表 。 
毕竟 ， 要 读 取 输入 的 可 从 代 对 象 中 的 每 一 个 元 素 才 能 排序 ， 而 且 排 序 的 对 象 
BBE. 因此 sorted 操作 完成 后 返回 排序 后 的 列表 。 我 在 这 里 提 到 
sorted， 是 因为 它 可 以 处 理 任 意 的 可 迭代 对 和 象 。 


当然 ，sorted 和 这 些 归 约 函 数 只 能 处 理 最 终 会 停止 的 可 和 迭代 对 象 。 否 则 ， 
这 些 函 数 会 一 直 收 集 元 素 ， 永 远 无 法 返回 结 采 。 


ua 我 们 回 过 头 来 分 析 内 置 的 iter() 函数 ， 它 还 有 一 个 鲜 为 人 知 的 特性 
没有 介绍 。 


14.12 RAAPiter BR 
如 前 所 述 ， 在 Python PERIZ x 时 会 调用 iter (x) ° 


可 是 ，iter 函数 还 有 一 个 鲜 为 人 知 的 用 法 : 传 入 两 个 参数 ， 使 用 常规 的 函 
数 或 任何 可 调用 的 对 象 创建 迭代 器 。 这 样 使 用 时 ， 第 一 个 参数 必须 是 可 调用 
的 对 象 ， 用 于 不 断 调用 (没有 参数 ) ， 产 出 各 个 值 ， 第 二 个 值 是 哨 符 ， 这 是 
个 标记 值 ， 当 可 调用 的 对 象 返 回 这 个 值 时 ， 触 发 迭代 器 抛 出 
StopIteration 异常 ， 而 不 产 出 哨 符 。 


下 述 示 例 展示 如 何 使 用 iter 函数 据 般 子 ， 直 到 掷 出 荆 点 为 止 : 


14 需 要 在 这 个 示例 的 最 前 面 添 加 一 句 : from random import randint ° 编者 注 


>>> def d6(): 
return randint(1, 6) 


>>> d6_iter = iter(d6, 1) 
>>> d6_iter 
<callable_iterator object at 0x00000000029BE6A0> 


>>> for roll in d6_iter: 
print(roll) 


注意 ， 这 里 的 iter 函数 返回 一 个 callable_iterator 对 象 。 示 例 中 的 
for 循环 可 能 运行 特别 长 的 时 间 ， 不 过 肯定 不 会 打印 1， 因 为 1 是 哨 符 。 与 
常规 的 迭代 器 一 样 ， 这 个 示例 中 的 d6_iter 对 象 一 旦 耗 尽 就 没 用 了 。 如 果 
想 重新 开始 ， 必 须 再 次 调用 iter(.,. )， 重 新 构建 迭代 器 。 


AEX iter 的 文档 中 有 个 实用 的 例 于 。 这 段 代码 逐 行 读 取 文 件 ， 直 到 遇 
到 空 行 或 者 到 达 文 件 末 尾 为 止 : 


with open('mydata.txt') as fp: 
for line in iter(fp.readline, '\n'): 
process_line(line) 


e 我 要 举 个 实用 的 例子 ， 说 明 如 何 使 用 生成 句 高 效 处 理 大 量 数 


14.13 ”案例 分 析 : 在 数据 库 转 换 工 具 中 使 用 生成 器 


几 年 前 ， 我 在 BIREME 工作 ， 这 是 PAHO/WHO (Pan-American Health 
Organization/World Health Organization， 泛 美 卫生 组 织 / 世界 卫生 组 织 ) 在 圣 


保罗 运营 的 一 家 数字 图 书馆 。BIREME 制作 的 众多 书目 数据 集中 包含 
LILACS (Latin American and Caribbean Health Sciences index， 拉 美和 加 勒 比 
地 区 健康 科学 索引 ) 和 SciELO (Scientific Electronic Library Online， 电 子 科 
PEATE) ， 这 两 个 数据 库 完 整 索引 了 这 一 地 区 发 布 的 科学 和 技术 作 


HH 


从 20 世纪 80 年 代 后 期 开始 ， 管 理 LILACS 的 数据 库 系 统 是 CDS/ISIS。 这 是 
UNESCO 开发 的 非 天 系 型 文档 数据 库 ， 后 来 为 了 在 GNU/Linux 服务 右上 运 
行 ，BIREME 使 用 C 语言 重 写 了 。 我 的 工作 之 一 是 探索 替代 方案 ， 把 
LILACS 移植 到 现代 的 开源 文档 数据 库 (最 终 还 要 移植 大 得 多 的 SciELO) ， 
例如 CouchDB 或 MongoDB ° 


在 探索 的 过 程 中 ， 我 编写 了 一 个 Python 脚本 一 isis2json.py， 把 CDS/ISIS 
文件 转换 成 适合 导入 CouchDB 或 MongoDB 的 JSON 文件 。 起 初 ， 这 个 脚本 
读 取 文件 的 是 CDS/ISIS 导出 的 ISO-2709 格式 。 读 写 过 程 必须 采用 渐进 方 
式 ， 因 为 完整 的 数据 集 比 主 内 存 大 得 多 。 解 决 方法 很 简单 : E for 循环 每 次 
和 迭代 时 从 .iso 文件 中 读 取 一 个 记录 ， 转 换 后 将 其 写 入 json 文件 。 


然而 ， 在 实际 操作 中 有 必要 让 isis2json.py 支持 CDS/ISIS 的 另 一 种 数据 格式 
——_BIREME 在 生产 环境 中 使 用 的 二 进 制 .mst 文件 ， 避 免 导出 为 ISO-2709 
格式 时 消耗 过 多 资源 。 


现在 我 遇 到 一 个 问题 : 用 来 读 取 ISO-2709 和 .mst 文件 的 库 提 供 的 API 差别 
很 大 。 而 输出 ISON 格式 的 循环 已 经 很 复杂 了 ， 因 为 这 个 脚本 要 接受 多 个 命 
令 行 选项 ， 每 次 输出 时 调整 记录 的 结构 。 在 同一 个 for 循环 中 使 用 两 个 不 同 
的 API， 同 时 还 要 生成 JSON， 这 样 太 难 以 管理 了 。 
解决 方法 是 隔离 读 取 逻辑 ， 写 进 两 个 生成 器 函数 中 :， 一 个 函数 支持 一 种 输入 
格式 。 最 终 ， 我 把 isis2json.py 脚本 分 成 了 四 个 函数 。 使 用 Python 2 编写 的 主 
脚本 如 示例 A-5， 达 依赖 的 完整 源码 在 GitHub 中 的 fluentpython/isis2json © 
库 里 。 
下 面 概览 这 个 脚本 的 结构 。 
main 

main 函数 使 用 argparse 模块 读 取 命令 行 选项 ， 用 于 配置 输出 记录 的 
结构 。 根 据 输入 文件 的 扩展 名 ，main 函数 会 选择 一 个 合适 的 生成 器 函数 ， 
逐个 读 取 数据 ， 然 后 产 出 记录 。 


iter_iso_records 


这 个 生成 器 函数 用 于 读 取 iso 文件 〈 假 设 是 ISO-2709 格式 ) ， 有 两 个 
BR. 一 个 是 文件 名 ; 另 一 个 是 isis_json_type， 即 一 个 与 记录 结构 有 
关 的 选项 。 在 这 个 函数 的 for 循环 中 ， 每 次 迭代 读 取 一 个 记录 ， 然 后 创建 一 
个 空 字典 ， 把 数据 填充 进 字段 之 后 产 出 字典 。 


iter_mst_records 


这 也 是 一 个 生成 器 函数 ， 用 于 读 取 .mst 文件 。 阅读 isis2json.py 脚本 
的 源码 后 你 会 发 现 ， 这 个 函数 没有 iter_iso_records 函数 简单 ， 不 过 接 
口 和 整体 结构 是 相同 的 : 参数 是 文件 名 和 isis_json_type, for 循环 每 
次 迭代 时 构建 并 产 出 一 个 字典 ， 表 示 一 个 记录 。 


5 用 来 读 取 复杂 的 mst 二 进 制 文件 的 库 其 实 是 用 Java 编写 的 ， 因 此 只 有 使 用 Jython 解释 器 2.5 或 以 
上 版 本 执行 isis2json.py 脚本 才能 使 用 这 不 了 能 。 详 | 情 参见 仓库 里 的 README.rst 文件 。 因 为 依赖 在 
需要 使 用 的 生成 器 范 数 中 导入 ， 所 以 即便 只 有 一 个 外 部 依赖 可 用 ， 这 个 脚本 仍 能 运行 。 


write_json 


这 个 函数 把 记录 输出 为 JSON 格式 ， 而 且 一 次 输出 一 个 记录 。 它 的 参数 
很 多 ， 其 中 第 一 个 参数 (input_gen) 是 对 某 个 生成 器 函数 的 引用 : 
iter_iso_records 或 iter _mst_records。write_json 函数 的 主 
for 循环 迭代 input_gen 引用 的 生成 器 产 出 的 字典 ， 根 据 命令 行 选项 设 定 
的 方式 处 理 ， 然 后 把 JSON 格式 的 记录 附加 到 输出 文件 里 。 


我 利用 生成 器 函数 解 厢 了 读 逻 辑 和 写 逻 辑 。 当 然 ， 解 类 二 者 最 简单 的 方式 
是 ， 把 所 有 记录 读 进 内 存 ， 然 后 写 入 硬盘 。 可 是 这 样 并 不 可 行 ， 因 为 数据 集 
人 可 以 交叉 读 写 ， 因 此 这 个 脚本 可 以 处 理 任意 大 小 


现在 ， 如 果 isis2json.py 脚本 需要 再 支持 一 种 输入 格式 ， 比 如 说 美国 国会 图 书 
馆 用 于 表示 ISO-2709 格式 数据 的 MARCXML 文档 格式 ， 只 需 再 添加 一 个 生 
成 器 函数 ， 实 现 读 逻 辑 ， 而 复杂 的 write_json 函数 无 需 任 何 改动 。 

这 不 是 什么 尖端 科技 ， 可 是 通过 这 个 实例 我 们 看 到 了 生成 器 的 灵活 性 。 使 用 
生成 器 处 理 数 据 库 时 ， 我 们 把 记录 看 成 数据 流 ， 这 样 消耗 的 内 存量 最 低 ， 而 
且 不 管 数据 有 多 大 都 能 处 理 。 只 要 管理 着 大 型 数据 集 ， 都 有 可 能 在 实践 中 找 
到 机 会 使 用 生成 器 


下 一 节 讨 论 暂 时 要 跳 过 的 一 个 生成 器 特性 。 为 什么 要 跳 过 呢 ? 原因 如 下 。 
14.14 ”把 生成 器 当成 协 程 


e a oi Python 
2.5 实现 了 “PEP 342 — Coroutines via Enhanced Generators”°。 这 个 提案 为 生成 
器 对 旬 添 加 了 额外 的 方 闫 办 功能 "其 中 最 秆 得 关 省 的 是 send() Fe 


与 ._next__() 方法 一 样 ，.send() 方法 致使 生成 器 前 进 到 下 一 个 
yield iff) ° Ait, .send() 方法 还 允许 使 用 生成 器 的 客户 把 数据 发 给 自 
己 ， 即 不 管 传 给 .send( ) 方法 什么 参数 ， 那 个 参数 都 会 成 为 生成 器 函数 定 
义 体 中 对 应 的 yield 表达 式 的 值 。 也 就 是 说 ，. send( ) 方法 允许 在 客户 代 
码 和 生成 器 之 间 双 向 交换 数据 。 而 .__next__() 方法 只 人 允许 客户 从 生成 器 
中 获取 数据 。 

这 是 一 项 重要 的 “改进 ”， 甚 至 改变 了 生成 器 的 本 性 : 像 这 样 使 用 的 话 ， 生 成 
器 就 变 身 为 协 程 。 在 PyCon US 2009 期 间 举办 的 一 场 著名 的 课程 中 ，David 
Beazley (可 能 是 Python 社区 中 在 协 程 方面 最 多 产 的 作者 和 演讲 者 ) 提醒 


道 : 


。 AE Bias FATE BPA A Se 

。 DRE BURNIE Bee 

oS WES AIMSS KERR, AN BETES MBE A K 

。 协 程 与 迭代 无 关 

。 注意 ， 虽 然 在 协 程 中 会 使 用 yie1d 产 出 值 ， 但 这 与 迭代 无 关 区 


David Beazley 
“A Curious Course on Coroutines and Concurrency” 


164% H “A Curious Course on Coroutines and Concurrency”) 33 张 幻灯 片 ， 题 为 “Keeping It 
Straight” ° 


我 会 遵从 他 的 建议 ， 至 此 结束 本 章 (AKERRAREN) ， 而 
不 涉及 把 生成 器 当成 协 程 使 用 的 send 方法 和 其 他 特性 。 第 16 章 会 讨论 协 
程 。 


14.15 ”本 章 小 结 


Python 语言 对 迭代 的 支持 如 此 深入 ， 因 此 我 经 常 说 ，Python 已 经 融合 
(grok) 了 送 代 器 。17Python 从 语义 上 集成 授 代 器 模式 是 个 很 好 的 例证 ， 说 


明 设计 模式 在 各 种 编程 语言 中 使 用 的 方式 并 不 相同 。 在 Python 中 ， 目 己 动 手 
实现 的 典型 迭代 器 (如 示例 14-4 所 示 ) 没有 实际 用 途 ， 只 能 用 作 教 学 示例 。 


了 ?根据 新 黑客 字典 (Jargon file) , grok 的 意思 不 仅 是 学 会 了 新 知识 ， 还 要 充分 吸收 知识 ， 做 到 “人 剑 


A 
口 


本 章 中 编写 了 一 个 类 的 几 个 版 本 ， 用 于 读 取 内 容 可 能 很 多 的 文件 ， 并 迭代 里 
面 的 单词 。 因 为 用 了 生成 器 ， 所 以 在 重 构 的 过 程 中 ，Sentence 类 越 来 越 简 
短 ， 越 来 越 易 于 阅读 。 最 终 ， 我 们 知道 了 生成 器 的 工作 原理 。 


后 来 ， 我 们 编写 了 一 个 用 于 生成 等 差 数 列 的 生成 器 ， 还 说 明了 如 何 利用 
itertools 模块 做 简化 。 随 后 ， 概 览 了 标准 库 中 24 个 通用 的 生成 右 函 数 。 


接着 ， 我 们 分 析 了 内 置 的 iter BA. 首先 说 明 ， 以 iter(o) 的 形式 调用 
MIRNA; 之 后 分 析 ， 以 iter(func, sentinel) 的 形式 调用 
时 ， 能 使 用 任何 函数 构建 和 迭代 器 。 


分 析 实 例 时 ， 我 说 明了 一 个 数据 库 转 换 工 具 的 实现 方式 ， 指 明 如 何 使 用 生成 
如 何 高 效 处 理 大 型 数据 集 ， 以 及 如 何 轻易 文 持 多 种 数 
Bl) Ty 


本 章 还 提 到 了 Python 3.3 中 新 出 现 的 yield from 句法 ， 还 有 协 程 。 这 里 
只 对 二 者 做 了 简单 介绍 ， 本 书后 面 会 更 为 深入 地 讨论 。 


14.16 ”延伸 阅读 


在 Python 语言 参考 手册 中 ,，“6.2.9. Yield expressions” 从 技术 层面 深入 说 明了 
生成 器 。 定 义 生 成 器 函数 的 PEP 是 “PEP 255—Simple Generators” ° 


itertools 模块 的 文档 写 得 很 棒 ， 包 含 大 量 示例 。 虽 然 那 个 模块 里 的 函数 
是 使 用 C 语言 实现 的 ， 不 过 文档 展示 了 如 何 使 用 Python 实现 部 分 函数 ， 这 

通常 要 利用 模块 里 的 其 他 函数 。 用 法 示例 也 很 好 ， 例 如 ， 有 一 个 代码 片段 说 
明 如 何 使 用 accumulate 函数 计算 市 利 居 的 分 期 还 款 ， 得 出 每 次 要 还 多 

少 。 文 档 中 还 有 一 节 是 “Itertools Recipes”， 说 明 如 何 使 用 itertools 模块 

中 的 现 有 函数 实现 额外 的 高 性 能 范 数 。 


在 David Beazley 与 Brian K. Jones 的 《Python Cookbook (第 3 版 ， 中 文 版 》 
一 书 中 ， 第 4 章 有 16 个 记 容 泗 盖 了 这 个 话题 ， 虽 然 角度 不 同 ， 但 都 天 注 实 
际 应 用 。 


“What's New in Python 3.3” (参见 “PEP 380: Syntax for Delegating to a 
Subgenerator”) 通过 示例 说 明了 yield from 句法 。 本 书 16.7 节 和 16.8 $ 
BWIA AE © 


如 果 你 对 文档 数据 库 感 兴趣 ， 想 进一步 了 解 14.13 TA, AT AD ERR 
布 在 Code4Lib Journal (涵盖 图 书馆 与 技术 交集 ) 上 的 论文 ， 题 为 "From ISIS 
to CouchDB: Databases and Data Models for Bibliographic Records”， 其 中 有 一 
节 对 isis2json.py 脚本 做 了 说 明 。 这 篇 论文 的 剩余 内 容 说 明文 档 数据 库 (如 
CouchDB 和 MongoDB) 实现 半 结 构 化 数据 模型 的 方式 ， 以 及 为 什么 这 种 模 
型 比 关 系 模型 更 适合 用 于 收集 书目 数据 。 


生成 器 函数 的 语法 糖 多 一 些 更 好 


在 设计 不 同 目的 的 控制 和 显示 设备 时 ， 设 计 师 需要 确认 它们 之 间 具 
有 明显 差异 。 


Donald Norman 


《设计 心理 学 》 


在 编程 语言 中 ， 源 码 是 “控制 和 显示 设备 *”。 我 觉得 Python 设计 得 特别 
好 ， 源 码 的 可 读 性 通常 很 高 ， 好 像 伪 代码 一 样 。 可 是 ， 没 有 什么 是 完 
的 。Guido van Rossum 应 该 遵从 Donald Norman 的 建议 (A Exts | 
文 ) ，3 引 入 新 的 关键 字 ， 用 于 定义 生成 器 画 数 ， 而 不 该 继续 使 用 def ° 
HX, “PEP 255 — Simple Generators” 中 的 “BDFL Pronouncements” 一 节 
已 经 提议 : 

深 藏 于 定义 体 中 的 “yield” 语 句 不 足以 提醒 语义 发 生 了 重大 变化 。 
Ae, Guido 讨厌 引入 新 关键 字 ， 而 且 觉 得 这 项 提议 没有 说 服 力 ， 因 此 
我 们 只 好 被 迫 接 受 def 。 


沿用 函数 句法 定义 生成 器 会 导致 几 个 不 好 的 后 果 。 在 Politz 等 人 发 布 的 
试验 成 果 论 文 “Python, the Full Monty: A Tested Semantics for the Python 
Programming Language”18 中 ， 有 个 简单 的 生成 器 函数 示例 (这 篇 论文 的 
AL) 


def f(): x=0 
while True: 


然后 ， 论 文 的 作者 指出 ， 我 们 无 法 通过 画 数 调用 抽象 产 出 这 个 过 程 (如 
示例 14- 134 所 示 ) o 


a 14-24 “ GAFE) 似乎 能 简单 地 抽象 产 出 这 个 过 程 ”(Politz 等 


def f(): 
def do_yield(n): 
yield n 
xX = 0 
while True: 
x += 1 
do_yield(x) 


如 采 调 用 示例 14-24 中 的 f( )， 会 得 到 一 个 无 限 循 环 ， 而 不 是 生成 器 


因为 yield 关键 字 只 能 把 最 近 的 外 层 函 数 变 成 生成 器 函数 。 虽然 生成 
器 函数 看 起 来 像 函 数 ， 可 是 我 们 个 能 通过 向 单 的 函数 调用 把 职责 委托 给 

另 一 个 生成 器 函数 。 与 此 相 比 ，Lua 语言 就 没有 强加 这 一 限制 。 在 Lua 

而 且 其 中 任何 一 个 函数 都 能 把 职 贡 区 给 原 
Ya 7 


Python 新 引入 的 yield from 句法 允许 生成 器 或 协 程 把 工作 委托 给 第 
三 方 完成 ， 这 样 束 无 需 租 套 for 循环 作为 变通 了 “。 在 函数 调用 前 面 加 上 
yield from 能 “解决 "示例 14-24 中 的 问题 ， 如 示例 14-25 所 示 。 


示例 14-25 这样 才 能 简单 地 抽象 产 出 这 个 过 程 


def f(): 

def do_yield(n): 
yield n 

xX = 0 


while True: 
x += 1 
yield from do_yield(x) 


沿用 def 声明 生成 器 犯 了 可 用 性 方面 的 错误 ， 而 Python 2.5 引入 的 协 程 

(也 写成 包含 yield 关键 字 的 函数 ) 把 这 个 问题 进一步 恶化 了 。 在 协 
程 中 ，yield 碰巧 GHA) 出 现在 赋值 语句 的 右手 边 ， 因 为 yield 用 
于 接收 客户 传 给 .send( ) 方法 的 参数 。 正 如 David Beazley 所 说 的 : 


KET 一 些 相 同 之 处 ， 但 是 生成 器 和 协 程 基本 上 是 两 个 不 同 的 概 


我 觉得 协 程 也 应 该 有 专用 的 关键 字 。 读 到 后 文 你 会 发 现 ， 协 程 经 常会 用 
到 特殊 的 装饰 器 ， 这 样 束 能 与 其 他 的 函数 区 分 开 。 可 是 ， 生 成 器 画 数 不 
fife Aelia, AURA Ma MAT RB ESA, BAIA yield 
关键 字 ， 以 此 判断 它 究 竟 是 普通 的 函数 ， 还 是 完全 不 同 的 洪水 猛兽 。 


也 许 有 人 会 说 ， 这 么 做 是 为 了 在 不 增加 句法 的 前 提 下 支持 这 些 特性 ， 即 
便 添 加 额外 的 句法 ， 也 只 是 “语法 糖 *。 可 是 ， 如 采 能 让 不 同 的 特性 看 起 
来 也 不 同 ， 那 么 我 更 喜欢 语法 糖 。Lisp 代码 难以 阅读 的 主要 原因 就 是 缺 
少 语法 糖 ， 这 也 导致 Lisp 语言 中 的 所 有 结构 看 起 来 都 像 是 函数 调用 。 


生成 器 与 迭代 器 的 语义 对 比 

思考 迭代 大 与 生成 句 之 间 的 关系 时 ， 至 少 可 以 从 三 方面 入 手 。 

第 一 方面 是 接口 。Python 的 迄 代 器 协议 定义 了 两 个 方法 : ~__next__ 和 
iter __。 生 成 锅 对 象 实现 了 这 两 个 方法 ， 因 此 从 这 方面 来 看 ， 所 有 


生成 器 都 是 迭代 器 。 由 此 可 以 得 知 ， 内 置 的 enumerate( ) 画 数 创建 的 
对 象 是 迭代 器 : 


>>> from collections import abc 
>>> e = enumerate('ABC') 


>>> isinstance(e, abc.Iterator) 
True 


第 二 方面 是 实现 方式 。 从 这 个 角度 来 看 ， 生 成 器 这 种 Python 语言 结构 可 

以 使 用 两 种 方式 编写 : 含有 yield 关键 字 的 函数 ， 或 者 生成 器 表达 

式 。 调 用 生成 狠 函 数 或 者 执行 生成 句 表 达 式 得 到 的 生成 器 对 象 属于 语言 

内 部 的 GeneratorType 类 型 
(https://docs.python.org/3/library/types.html#types.GeneratorType) ° MX 

JERE, MAERA, ALN GeneratorType 类 型 的 实例 

实现 了 迭代 器 接口 。 不 过 ， 我 们 可 以 编写 不 是 生成 器 的 迭代 器 ， 方 法 是 

实现 经 典 的 迭代 器 模式 ， 如 示例 14-4 所 示 ， 或 者 使 用 C 语言 编写 扩 

展 。 从 这 方面 来 看 ，enumerate 对 象 不 是 生成 器 : 


>>> import types 
>>> e = enumerate('ABC') 


>>> isinstance(e, types.GeneratorType) 
False 


sa 


这 是 因为 types.GeneratorType 类 型 
(https://docs.python.org/3/library/types.html#types.GeneratorType) 是 这 样 
定义 的 : “生成 吉 一 迭代 器 对 象 的 类 型 ， 调 用 生成 器 函数 时 生成 。” 


第 三 方面 是 概念 。 根 据 《设计 模式 : 可 复 用 面向 对 象 软件 的 基础 》 一 书 
EX, TREIER RS, AAT RRA, ME 
Tom ° Aar BETS SAR, A, a ey o (He, AVP HE 
MNS has PAS OSS, AE NOVAS PRUE; 而 且 ， 调 用 
next(it) 时 ， 迭 代 器 不 能 修改 从 数据 源 中 读 取 的 值 ， 只 能 原封 不 动 地 
M” 


而 生成 器 可 能 无 需 遍 历 集 合 就 能 生成 值 ， 例 如 range 函数 。 即 便 依附 

了 集合 ， 生 成 器 不 仅 能 产 出 集合 中 的 元 素 ， 还 可 能 会 产 出 派生 自 元 素 的 
HE ° enumerate 函数 是 很 好 的 例子 。 根 据 迄 代 器 设计 模式 的 原始 

定义 ，enumerate 函数 返回 的 生成 器 不 是 迭代 器 ， 因 为 创建 的 是 生成 
器 产 出 的 元 组 。 


从 概念 方面 来 看 ， 实 现 方式 无 关 暴 要 。 不 使 用 Python 生成 句 对 象 也 能 编 
为 了 表明 这 一 点 ， 我 写 了 一 个 辈 波 纳 自 数列 生成 器 ， 如 示例 
14-26 所 示 。 


示例 14-26 fibo_by_hand.py: 不 使 用 GeneratorType 实例 实现 
RARA Mat 
class Fibonacci: 
def _iter_ (self): 
return FibonacciGenerator() 
class FibonacciGenerator: 
def _ init__(self): 


self.a = 0 
self.b = 1 


def next__(self): 


result = self.a 
self.a, self.b = self.b, self.a + self.b 
return result 


示例 14-26 虽然 可 行 ， 但 只 是 一 个 思春 的 示例 。 符 合 Python 风格 的 斐 波 
纳 契 数列 生成 器 如 下 所 示 : 


def fibonacci(): 
a, b=0, 1 
while True: 


yield a 
a, b=b, a+b 


nee 始终 可 以 使 用 生成 器 这 个 语言 结构 履行 迭代 器 的 基本 职责 : 遍历 
， 并 从 中 产 出 元 素 。 


FKE, Python 程序 员 不 会 产 格 区 分 二 者 ， 即便 在 官方 文 村 中 也 把 生成 
arb (Past CAR © Python 词汇 表 对 迁 代 器 引 下 的 权威 定义 比较 党 统 ， 涵 盖 了 
Aaa Boat 

迭代 器 : 表示 数据 流 的 对 象 .…… 

建议 你 读 一 下 Python 词汇 表 中 对 迭代 器 的 完整 定义 。 而 在 生成 器 的 定义 
中 ， 和 迭代 器 和 生成 器 是 同义词 ,“ 生 成 器 ” 指 代 生成 器 函数 ， 以 及 生成 器 
函数 构建 的 生成 器 对 象 。 因 此 ， 在 Python 社区 的 行 话 中 ， 迭 代 器 和 生成 
器 在 一 定 程 度 上 是 同义词 。 

Python 中 最 简 的 迭代 器 接口 


《设计 模式 ， 可 复 用 面向 对 象 软件 的 基础 》 一 书 讲解 迁 代 器 模式 时 ， 
在 "实现 "一 节 中 说 道 : 2 


迭代 器 的 最 小 接口 由 First、Next、IsDone 和 CurrentItem 操作 组 


不 过 ， 这 人 句 话 有 个 脚注 : 


甚至 可 以 将 Next、IsDone 和 CurrentItem 并 入 到 一 个 操作 中 ， 该 操 
作 前 进 到 下 一 个 对 象 并 返回 这 个 对 象 ， 如 果 遍 历 结 束 ， 那 么 这 个 操 
作 返 回 一 个 特定 的 值 (例如 ，0) 标志 该 迭代 结束 。 这 样 我 们 就 使 
这 个 接口 变 得 更 小 了 。 


这 与 Python 的 做 法 接近 : 只 用 一 个 __next__ 方法 完成 这 项 工作 。 不 
过 ， 为 了 表明 迭代 结束 ， 这 个 方法 没有 使 用 哨 符 ， 因 为 哨 符 可 能 不 小 心 
被 忽略 ， 而 是 使 用 StopIteration 异常 。 简 单 且 正确 ， 这 正 是 
Python 之 道 


m 
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第 15 章 EPEAN else KR 


和 最终， 上下文 管理 器 可 能 几乎 与 子 程序 (subroutine) 本 身 一 样 重要 。 日 
前 ， 我 们 只 了 解 了 上 下 文 管理 器 的 皮毛 .…...Basic 语言 有 with 语句 ， 
而 且 很 多 语言 都 有 。 但 是 ， 在 各 种 语言 中 with 语句 的 作用 不 同 ， 而 且 
做 的 都 是 简单 的 事 ， 虽 然 可 以 避免 不 断 使 用 点 号 查找 属性 ， 但 是 不 会 做 
事前 准备 和 事后 清理 。 不 要 觉得 名 字 一 样 ， 束 意味 着 作用 也 一 样 。 
with 语句 是 非常 了 不 起 的 特性 。1 


-Raymond Hettinger 
雄辩 的 Python 布道 者 


1 节选 自 PyCon US 2013 主题 演讲 “What Makes Python Awesome”; 关于 with 的 部 分 从 23:00 开始 ， 
到 26:15 结束 。 


本 章 讨论 其 他 语言 中 不 常见 的 一 些 流程 控制 特性 ， 正 因 如 此 ，Python 用 户 往 
往 会 忽视 或 没有 充分 使 用 这 些 特性 。 下 面 要 讨论 的 特性 有 : 


。With 语句 和 上 下 文 管理 器 

。for、while 和 try 语句 的 else 子 句 
with 语句 会 设置 一 个 临时 的 上 下 文 ， 交 给 上 下 文 管理 器 对 象 控制 ， 并 且 负 
责 清 理 上 下 文 。 这 么 做 能 避免 错误 并 减少 样板 代码 ， 因 此 API 更 安全 ， 而 且 
更 易于 使 用 。 除 了 自动 关闭 文件 之 外 ，with 块 还 有 很 多 用 途 。 
else 子 句 与 with 语句 完全 没有 关系 。 可 是 已 经 写 到 第 五 部 分 了 ， 我 找 不 
到 其 他 地 方 介 绍 else， 又 不 能 单 写 只 有 一 页 内 容 的 一 章 ， 因 此 就 在 这 一 章 
讨论 了 。 
下 面 从 这 个 较 小 的 话题 开始 ， 进 入 本 章 的 实质 内 容 。 


15.1” 先 做 这 个 ， 再 做 那个 :， if 语句 之 外 的 else 块 


这 个 语言 特性 不 是 什么 秘密 ， 但 却 没有 得 到 重视 : else 子 句 不 仅 能 在 if 
语句 中 使 用 ， 还 能 在 for > while 和 try 语句 中 使 用 。 


for/else ` while/else 和 try/else 的 语义 关系 紧密 ， 不 过 与 
if/else 差别 很 大 。 起 初 ，else 这 个 单词 的 意思 阻碍 了 我 对 这 些 特性 的 理 
解 ， 但 是 最 终 我 习惯 了 。 


else 子 句 的 行为 如 下 。 


for 


仅 当 for 循环 运行 完毕 时 ( 即 for 循环 没有 被 break 语句 中 止 ) 才 运 
行 else 块 。 


while 


仅 当 while 循环 因为 条 件 为 假 值 而 退出 时 ( 即 while 循环 没有 被 
break 语句 中 止 ) 才 运 行 else 块 。 


try 


仅 当 try RAR RUIN AIST else 块 。 官 方 文档 还 指 
H: “else 子 句 抛 出 的 异常 不 会 由 前 面 的 except 子 句 处 理 。” 


在 所 有 情况 下 ， 如 果 异 常 或 者 return、break 或 continue 语句 导致 控 
制 权 跳 到 了 复合 语句 的 主 块 之 外 ，else 子 句 也 会 被 跳 过 。 


` 我 觉得 除了 if 语句 之 外 ， 其 他 语句 选择 使 用 else 关键 字 是 个 错 
误 。else 缠 含 着 “排他 性 ”这 层 意思 ， 例 如 “要 么 运行 这 个 循环 ， 要 么 做 
那 件 事 ”。 可 是 ， 在 循环 中 ，else 的 语义 恰好 相反 : “运行 这 个 循环 ， 
然后 做 那 件 事 。” 因 此 ， 使 用 then 关键 字 更 好 。then 在 try 语句 的 上 
下 文中 也 说 得 通 : “尝试 运行 这 个 ， 然 后 做 那 件 事 。” 可 是 ， 添 加 新 关键 
字 属 于 语言 的 重大 变化 ， 而 Guido 唯恐 避 之 不 及 。 


在 这 些 语 句 中 使 用 else 子 句 通常 能 让 代码 更 易于 阅读 ， 而 且 能 省 去 一 些 麻 
烦 ， 不 用 设置 控制 标志 或 者 添加 额外 的 Af 语句 。 


在 循环 中 使 用 else 子 句 的 方式 如 下 述 代码 片段 所 示 : 


for item in my_list: 
if item.flavor == 'banana': 


break 
else: 


raise ValueError('No banana flavor found!') 


一 开始 ， 你 可 能 觉得 没 必要 在 try/except 块 中 使 用 else FA) o HER, 
在 下 述 代码 片段 中 ， 只 有 dangerous_call() 不 抛 出 异常 ， 
after_call() 才 会 执行 ， 对 吧 ? 


try: 
dangerous_call() 
after_call() 


except OSError: 
log('OSError...') 


SRM, after_call() 不 应 该 放 在 try 块 中 。 为 了 清晰 和 准确 ，try 块 中 
应 该 只 抛 出 预期 异常 的 语句 。 因 此 ， 像 下 面 这 样 写 更 好 : 


try: 
dangerous_call() 
except OSError: 
log('OSError...') 


else: 
after_call() 


现在 很 明确 ，try 块 防守 的 是 dangerous_cal1() 可 能 出 现 的 错误 ， 而 不 
是 after_cal1()。 而 且 很 明显 ， 只 有 try 块 不 抛 出 异常 ， 才 会 执行 
after_call() ° 


在 Python 'f, try/except 不 仅 用 于 处 理 错 误 ， 还 常用 于 控制 流程 。 为 
此 ，Python 官方 词汇 表 还 定义 了 一 个 缩 略 词 (口号 ) 。 


EAFP 


取得 原谅 比 获 得 许可 容易 (easier to ask for forgiveness than 
permission) 。 这 是 一 种 常见 的 Python 编程 风格 ， 先 假定 存在 有 效 的 键 
或 属性 ， 如 果 假 定 不 成 立 ， 那 么 捕获 异常 。 这 种 风格 简单 明快 ， 特 点 
代码 中 有 很 多 try 和 except 语句 。 与 其 他 很 多 语言 一 样 (如 C 语 
言 ) ， 这 种 风格 的 对 立 面 是 LBYL 风格 。 


接 下 来 ， 词 汇 表 定 义 了 LBYL。 


LBYL 


am 


三 思 而 后 行 (look before you leap) 。 这 种 编程 风格 在 调用 函数 或 查 
找 属 性 或 键 之 前 显 式 测试 前 提 条 件 。 与 EAFP 风格 相反 ， 这 种 风格 的 特 
点 是 代码 中 有 很 多 if 语句 。 在 多 线程 环境 中 ，LBYL 风格 可 能 会 在 “ 检 
查 ” 和 “行事 ”的 空当 引入 条 件 竞 争 。 例 如 ,对 if key in mapping: 
return mapping[key] 这 上 段 代 码 来 说 ， 如 果 在 测试 之 后 ， 但 在 查找 
之 前 ， 男 一 个 线程 从 映射 中 删除 了 那个 键 ， 那 么 这 段 代码 束 会 失败 。 这 
个 问题 可 以 使 用 锁 或 者 EAFP 风格 解决 。 


如 果 选 择 使 用 EAFP KiK, MARERA T H else 子 句 ， 并 在 
try/except 语句 中 合理 使 用 。 


下 面 探讨 本 章 的 主要 话题 : 强大 的 with 语句 。 


15.2 上下文 管理 器 和 with 块 


上 下 文 管理 器 对 象 存 在 的 目的 是 管理 with 语句 ， 就 像 迭 代 器 的 存在 是 为 了 
管理 for 语句 一 样 。 


with 语句 的 目的 是 简化 try/finally 模式 。 这 种 模式 用 于 保证 一 段 代 码 

运行 完毕 后 执行 某 项 操作 ， 即 便 那 段 代码 由 于 异常 、return 语句 或 
sys.exit() 调用 而 中 止 ， 也 会 执行 指定 的 操作 。finally 子 句 中 的 代码 
通常 用 于 释放 重要 的 资源 ， 或 者 还 原 临 时 变更 的 状态 。 

上 下 文 管理 器 协议 包含 _enter 和 exit__ 两 个 方法 。with 语句 开 
人 运行 时 ， 会 在 上 下 文 管理 器 对 象 上 调用 __enter__ 方法 。with 语句 运 

行 结束 后 ， 会 在 上 下 文 管理 器 对 象 上 调用 __exit__ 方法 ， 以 此 扮演 
finally 子 句 的 角色 。 

最 常见 的 例子 是 确保 关闭 文件 对 象 。 使 用 with 语句 关闭 文件 的 详细 说 明 参 
见 示例 15-1。 


示例 15-1 演示 把 文件 对 象 当 成 上 下 文 管理 器 使 用 


>>> with open('mirror.py') as fp: #@ 
src = fp.read(60) # 四 


>>> len(src) 

60 

>>> fp #® 

<_io.TextIOWrapper name='mirror.py' mode='r' encoding='UTF-8'> 
>>> fp.closed, fp.encoding # @ 

(True, 'UTF-8') 


>>> fp.read(60) # © 
Traceback (most recent call last): 

File "<stdin>", line 1, in <module> 
ValueError: I/O operation on closed file. 


@ fp 绑 定 到 打开 的 文件 上 ， 因 为 文件 的 enter_ ”方法 返回 self e- 
@ 从 fp 中 读 取 一 些 数据 。 
© fp 变量 仍然 可 用 。” 


C= 


“与 函数 和 模块 不 同 ，with 块 没 有 定义 新 的 作用 域 。 


@ 可 以 读 取 fp 对 象 的 属性 。 


O 但 是 不 能 在 fp 上 执行 VO 操作 ， 因 为 在 with 块 的 末尾 ， 调 用 
TextIOwrapper. exit ”方法 把 文件 关闭 了 。 


示例 15-1 中 标注 @@ 的 那 行 代码 道 出 了 不 易 察觉 但 很 重要 的 一 点 : 执行 with 
后 面 的 表达 式 得 到 的 结果 是 上 下 文 管理 器 对 象 ， 不 过 ， 把 值 绑 定 到 目标 变 
上 (as 子 句 ) 是 在 上 下 文 管理 器 对 象 上 调用 __enter__ 方法 的 结 


WI, asi) 15-1 中 的 open() 函数 返回 J eanper 类 的 实例 ， 而 该 
实例 的 __enter__ 方法 返回 self ° Amt, __enter__ 方法 除了 返回 上 下 
文 管理 器 之 外 ， 还 可 能 返回 其 他 对 象 。 


不 管控 制 流程 以 哪 种 方式 退出 with 块 ， 都 会 在 上 下 文 管理 器 对 象 上 调用 
exit_ 方法， 而 不 是 在 enter_ ”方法 返回 的 对 象 上 调用 。 


with 语句 的 as 子 句 是 可 选 的 。 对 open 函数 来 说 ， 必 须 加 上 as 子 句 ， 以 
便 获 取 文 件 的 引用 。 不 过 ， 有 些 上 下 文 管理 絮 会 返回 None， 因 为 没什么 有 
用 的 对 象 能 提供 给 用 户 。 


示例 15-2 使 用 一 个 精心 制作 的 上 下 文 管理 器 执行 操作 ， 以 此 强调 上 下 文 管理 
ar __enter__ 方法 返回 的 对 象 之 间 的 区 别 。 


示例 15-2 测试 LookingGlass 上 下 文 管理 器 类 


>>> from mirror import LookingGlass 

>>> with LookingGlass() as what: @ 
print('Alice, Kitty and Snowdrop') @ 
print(what) 


pordwonsS dna yttik ,ecilA © 
YKCOWREBBAJ 


>>> what @ 

' JABBERWOCKY ' 

>>> print('Back to normal.') © 
Back to normal. 


@ 上 下 文 管理 器 是 LookingGlass 类 的 实例 ，Python 在 上 下 文 管理 器 上 调 
Henter 方法， 把 返回 结果 绑 定 到 what 上 。 


@ 打印 一 个 字符 串 ， 然 后 打印 what 变量 的 值 
打印 出 的 内 容 是 反 疝 的 。 


O IHE, with 块 已 经 执行 完毕 。 可 以 看 出 ，__enter__ 方法 返回 的 值 
一 一 即 存储 在 what 变量 中 的 值 一 一 是 字符 串 ' JABBERWOCKY' ° 


O 输出 不 再 是 反 向 的 了 。 


示例 15-3 是 LookingGlass 类 的 实现 。 


o 


示例 15-3 mirror.py: LookingGlass 上 下 文 管理 器 类 的 代码 


class LookingGlass: 


def _enter_(self): @ 
import sys 
self.original_write = sys.stdout.write @ 
sys.stdout.write = self.reverse write © 
return 'JABBERWOCKY' @ 


reverse_write(self, text): © 
self.original_write(text[::-1]) 


_ exit (self, exc_type, exc_value, traceback): © 
import sys @ 
sys.stdout.write = self.original_write ® 
if exc_type is ZeroDivisionError: © 
print('Please DO NOT divide by zero!') 
return True @ 


@ 除了 self Z4b, Python HH _enter 方法 时 不 传 入 其 他 参数 。 


@ 把 原来 的 sys.stdout .write 方法 保存 在 一 个 实例 属性 中 ， 供 后 面 使 
用 。 


© WH sys.stdout.write 打 猴 子 补 本 ， 替 换 成 自己 编写 的 方法 。 
@ 返回 ' JABBERWOCKY' 字符 串 ， 这 样 才 有 内 容 存 入 目标 变量 what。 


O 这 是 用 于 取代 sys.stdout.write 的 方法 ， 把 text 参数 的 内 容 反 转 ， 
然后 调用 原来 的 实现 。 


O 如 果 一 切 正 常 ，Python 调用 __exit_ 方法 时 传 入 的 参数 是 None ， 
None, None; 如 果 抛 出 了 异常 ， 这 三 个 参数 是 异常 数据 ， 如 下 所 壕 。 


@ 重复 导入 模块 不 会 消耗 很 多 资源 ， 因 为 Python 会 缓存 导入 的 模块 。 
© 还 原 成 原来 的 sys .stdout ,write 方法 。 


© 如 果 有 异常 ， 而 且 是 ZeroDivisionError 类 型 ， 打印 一 个 消息 ...... 
© .…….. 然 后 返回 True， 告诉 解释 器 ， 异 常 已 经 处 理 了 。 


uF __exit__ FERRE] None, 或 者 True 之 外 的 值 ，with 块 中 的 任 
何 异常 都 会 同上 冒 泡 。 


a 在 实际 使 用 中 ， 如 果 应 用 程序 接管 了 标准 输出 ， 可 能 会 暂时 把 
sys.stdout 换 成 类 似 文件 的 其 他 对 象 ， 然 后 再 切换 成 原来 的 版 本 。 
contextlib.redirect_stdout 上 下 文 管理 器 就 是 这 么 做 的 : 只 需 
传 入 类 似 文件 的 对 象 ， 用 于 替代 sys.stdout ° 


farv H __enter__ 方法 时 ， 除 了 隐 式 的 self 之 外 ， 不 会 传 入 任何 参 
数 。 传 给 exit_ ”方法 的 三 个 参数 列举 如 下 。 


exc_type 
异常 类 (例如 ZeroDivisionError) 。 
exc_value 


异常 实例 。 有 了 时 会 有 参数 传 给 异常 构造 方法 ， 例 如 错误 消息 ， 这 些 参数 
可 以 使 用 exc_value.args 获取 。 


traceback 


traceback 对 象 。3 


3 在 try/finally 语句 的 finally 块 中 调用 sys.exc_info() 
(https://docs.python.org/3/library/sys.html#sys.exc_info) ， 得 到 的 就 是 exit__ 接收 的 这 三 个 参 
数 。 鉴 于 with 语句 是 为 了 取代 大 多 数 try/finally 语句 ， 而 且 通 常 需 要 调用 sys.exc_info() 

来 判断 做 什么 清理 操作 ， 这 种 行为 是 合理 的 。 


上 下 文 管理 器 的 具体 工作 方式 参见 示例 15-4。 在 这 个 示例 中 ， 我 们 在 with 
块 之 外 使 用 LookingGlass 类 ， 因 此 可 以 手动 调用 __enter 和 
exit 方法 。 


示例 15-4 在 with 块 之 外 使 用 LookingGlass 类 


>>> from mirror import LookingGlass 

>>> manager = LookingGlass() @ 

>>> manager 

<mirror.LookingGlass object at 0x2a578ac> 
>>> monster = manager.__enter_() @ 

>>> monster == 'JABBERWOCKY' © 

eurT 


>>> monster 
"YKCOWREBBAJ' 


>>> manager 

>ca875a2x0 ta tcejbo ssalGgnikooL.rorrim< 
>>> manager. exit (None, None, None) @ 
>>> monster 

' JABBERWOCKY ' 


@ 实例 化 并 审查 manager 实例 。 


@ 在 上 下 文 管理 器 上 调用 __enter_() 方法 ， 把 结果 存储 在 monster 
中 。 


© monster 的 值 是 字符 串 'JABBERWOCKY'。 打 印 出 的 True 标识 符 是 反 
AY, AA stdout 的 所 有 输出 都 经 过 _enter_ 方法 中 打 补 丁 的 write 
方法 处 理 。 


© 调用 manager. exit ， 还原 成 之 前 的 stdout .write。 


E Peai 新 颖 的 特性 ，Python 社区 肯定 还 在 不 断 寻找 新 的 创意 用 
法 。 标 准 库 中 有 一 些 示 例 。 


。 在 sqlite3 模块 中 用 于 管理 事务 ， 参 见 “12.6.7.3. Using the connection 
as a context manager” ° 4 


e Æ threading 模块 中 用 于 维护 锁 、 条 件 和 人 信号， 参见“17.1.10. Using 
locks, conditions, and semaphores in the with statement” ° 


。 为 Decimal 对 象 的 算术 运算 设置 环境 ， 参 见 
decimal.localcontext 函数 的 文档 。 


。 为 了 测试 临时 给 对 象 打 补 丁 ， 参 见 unittest,mock,.patch 函数 的 文 
档 。 


4 在 Python 3.5 文档 中 是 “12.6.8.3”。 一 一 编者 注 


标准 库 中 还 有 个 contextlib 模块 ， 提 供 一 些 实用 工具 ， 参 见 下 一 入 。 


15.3 context1ib 模 块 中 的 实用 工具 
自己 定义 上 下 文 管理 器 类 之 前 ， 先 看 一 下 Python 标准 库 文档 中 的 “29.6 


contextlib — Utilities for with-statement contexts”。 除 了 前 面 提 到 的 
redirect_stdout aX, contextlib 模块 中 还 有 一 些 类 和 其 他 函数 ， 
使 用 范围 更 广 。 


closing 


如 果 对 象 提 供 了 close( ) 方法 ,但 没有 实现 _enter_/_exit 
协议 ， 那 么 可 以 使 用 这 个 函数 构建 上 下 文 管理 器 。 


suppress 
构建 临时 忽略 指定 异常 的 上 下 文 管理 器 。 
@contextmanager 


-n 把 简单 的 生成 器 函数 变 成 上 下 文 管理 器 ， 这 样 就 不 用 创建 
去 实现 管理 器 协议 了 了。 


ContextDecorator 


这 是 个 基 类 ， 用 于 定义 基于 类 的 上 下 文 管理 器 。 这 种 上 下 文 管理 器 也 能 


用 于 装饰 画 数 ， 在 受 管理 的 上 下 文中 运行 整个 画 数 。 


ExitStack 


这 个 上 下 文 管理 器 能 进入 多 个 上 下 文 管理 器 。with 块 结束 时 ， 
ExitStack 按照 后 进 先 出 的 顺序 调用 栈 中 各 个 上 下 文 管理 器 的 exit __ 
方法 。 如 果 事 先 不 知道 with 块 要 进入 多 少 个 上 下 文 管理 器 ， 可 以 使 用 这 个 
类 。 例 如 ， 同 时 打开 任意 一 个 文件 列表 中 的 所 有 文件 。 


显然 ， 在 这 些 实用 工具 中 ， 使 用 最 广泛 的 是 @contextmanager 装饰 器 ， 
因此 要 格外 留心 。 这 个 装饰 器 也 有 迷惑 人 的 一 面 ， 因 为 它 与 迭代 无 关 ， 却 要 
使 用 yie1d 语句 。 由 此 可 以 引出 协 程 ， 这 是 下 一 章 的 主题 。 


15.4 ”使 用 @contextmanager 


@contextmanager 装饰 器 能 减少 创建 上 下 文 管理 器 的 样板 代码 量 ， 因 为 不 
用 编写 一 个 完整 的 类 ， 定 义 ”enter 和 exit 方法， 而 只 需 实现 有 
一 个 yield HAERA, ERA enter ”方法 返回 的 值 


在 使 用 @contextmanager 装饰 的 生成 器 中 ，yield 语句 的 作用 是 把 函数 
的 定义 体 分 成 两 部 分 : yield 语句 前 面 的 所 有 代码 在 with 块 开始 时 ( 即 解 
释 器 调用 _enter_ ”方法 时 ) PUT, yield 语句 后 面 的 代码 在 with 块 结 
REF 〈 即 调用 _ exit_ 方法 时 ) 执行 。 


下 面 举 个 例子 。 示 例 15-5 使 用 一 个 生成 辟 函 数 代 蔡 示例 15-3 中 定义 的 
LookingGlass 类 。 


示例 15-5 mirror_gen.py: 使 用 生成 器 实现 的 上 下 文 管理 器 


° 


import contextlib 


@contextlib.contextmanager @ 
def looking_glass(): 
import sys 
original_write = sys.stdout.write @ 


def reverse_write(text): © 
original_write(text[::-1]) 


sys.stdout.write = reverse_write @ 
yield 'JABBERWOCKY' © 
sys.stdout.write = original_write © 


@ 1A contextmanager 装饰 器 。 


@ 贮存 原来 的 sys.stdout ,write 方法 。 


© 定义 自 定义 的 reverse_write 函数 ， 在 闭 包 中 可 以 访问 
original_write ° 


O }E sys.stdout.write 替换 成 reverse_write。 


@ 产 出 一 个 值 ， 这 个 值 会 绑 定 到 with 语句 中 as 子 名 的 目标 变量 上 。 执 行 
with 块 中 的 代码 时 ， 这 个 画 数 会 在 这 一 点 暂停 。 


O 控制 权 一 旦 跳出 with 块 ， 继 续 执 行 yield 语句 之 后 的 代码 ; 这 里 是 恢 
复 成 原来 的 sys，stdout ,write 方法 。 


示例 15-6 是 使 用 Looking_glass 函数 的 例子 。 
示例 15-6 测试 looking_glass 上 下 文 管理 器 函数 


>>> from mirror_gen import looking_glass 

>>> with looking_glass() as what: @ 
print('Alice, Kitty and Snowdrop' ) 
print(what) 


pordwonS dna yttik ,ecilA 
YKCOWREBBAJ 

>>> what 

' JABBERWOCKY ' 


@ 与 示例 15-2 ME— A Ke r LERNA: LookingGlass 变 成 了 
looking_glass ° 


其 实 ，context1ib.contextmanager 装饰 器 会 把 函数 包装 成 实现 
enter 和 ”exit 方法 的 类 。5 


5 类 的 名 称 是 _GeneratorcontextManager。 如 果 想 了 解 具体 的 工作 方式 ， 可 以 阅读 Python 3.4 
发 行 版 中 Lib/contextlib.py 文件 里 的 源码 。 


这 个 类 的 __enter__ 方法 有 如 下 作用 。 
(1) VARA Bas EN, RARE TR (这 里 把 它 称 为 gen) 。 
(2) 调用 next (gen)， 执 行 到 yield 关键 字 所 在 的 位 置 。 


(3) 返回 next(gen) 产 出 的 值 ， 以 便 把 产 出 的 值 绑 定 到 with/as 语句 中 的 
目标 变量 上 。 


with 块 终 止 时 ， exit 方法 会 做 以 下 几 件 事 。 


(1) 检查 有 没有 把 异常 传 给 exc_type; 如 果 有 ， 调 用 
gen.throw(exception), 在 生成 器 函数 定义 体 中 包含 yield 关键 字 的 
那 一 行 抛 出 异常 。 


(2) 否则 ， 调 用 next (gen)， 继 续 执 行 生 成 器 函数 定义 体 中 yield 语句 之 
后 的 代码 。 


示例 15-5 有 一 个 严重 的 错误 : 如果 在 with RPG T, Python 解释 器 
会 将 其 捕获 ， 然 后 在 looking_glass HAW yield 表达 式 里 再 次 抛 出 。 
但 是 ， 那 里 没有 处 理 错 误 的 代码 ， 因 此 looking_glass 函数 会 中 止 ， 永 远 
无 法 恢复 成 原来 的 sys .stdout ,write 方法 ， 导 致 系统 处 于 无 效 状 态 。 


示例 15-7 添加 了 一 些 代 码 ， 特 别 用 于 处 理 ZeroDivisionError 异常 ， 这 
样 ， 在 功能 上 它 就 与 示例 15-3 中 基于 类 的 实现 等 效 了 。 


示例 15-7 mirror_gen_exc.py: 基于 生成 器 的 上 下 文 管理 器 ， 而 且 实 现 
了 异常 处 理 一 一 从 外 部 看 ， 行 为 与 示例 15-3 一 样 


import contextlib 


@contextlib.contextmanager 
def looking_glass(): 
import sys 
original_write = sys.stdout.write 


def reverse_write(text): 
original_write(text[::-1]) 


sys.stdout.write = reverse_write 
msg ='' @ 
try: 
yield 'JABBERWOCKY' 
except ZeroDivisionError: @ 
msg = 'Please DO NOT divide by zero!' 
finally: 
sys.stdout.write = original_write ® 
if msg: 
print(msg) ©@ 


@ 创建 一 个 变量 ， 用 于 保存 可 能 出 现 的 错误 消息 ， 与 示例 15-5 相 比 ， 这 有 是 
第 一 处 改动 。 


Ə 处 理 ZeroDivisionError 异常 ， 设 置 一 个 错误 消息 。 
© 撤销 对 sys .stdout .write 方法 所 做 的 猴子 补丁 。 
@ 如 果 设 置 了 错误 消息 ， 把 它 打 印 出 来 。 


前 面 说 过 ， 为 了 告诉 解释 器 异常 已 经 处 理 了 ， exit__ 方法 会 返回 

True， 此 时 解释 器 会 压制 异常 。 如 果 exit 方法 没有 显 式 返回 一 个 
值 ， 那 么 解释 器 得 到 的 是 None， 然 后 向 上 冒 泡 异 常 。 使 用 
@contextmanager 装饰 费时 ， 默 认 的 行为 是 相反 的 : 装饰 妖 提 供 的 
exit 方法 假定 发 给 生成 颖 的 所 有 异常 都 得 到 处 理 了 ， 因 此 应 该 压制 异 
常 。6 如 果 不 想 让 @contextmanager 压制 异常 ， 必 须 在 被 装饰 的 函数 中 显 
式 重新 抛 出 异常 。” 


6 把 异常 发 给 生成 器 的 方式 是 使 用 throw 方法 ， 参 见 16.5 节 。 


“这 样 约定 的 原因 是 ， 创 建 上 下 文 管理 器 时 ， 生 成 器 无 法 返回 值 ， 只 能 产 出 值 。 不 过 ， 现 在 可 以 返 
值 了 ， 如 16.6 节 所 述 。 届 时 你 会 看 到 ， 如 果 在 生成 器 中 返回 值 ， 那 么 会 抛 出 异常 。 


~ 使 用 @contextmanager 装饰 器 时 ， 要 把 yield 语句 放 在 
try/finally 语句 中 (或 者 放 在 with 语句 中 ) ， 这 是 无 法 避免 的 ， 
因为 我 们 永远 不 知道 上 下 文 管理 器 的 用 户 会 在 with 块 中 做 什么 。3 


”这 条 提示 直接 引用 Leonardo Rochael 的 评论 ， 他 是 本 书 的 技术 审 校 之 一 。 说 得 好 ，Leo ! 


除了 标准 库 中 举 的 例子 之 外 ，Martijn Pieters 实现 的 原 地 文件 重 写 上 下 文 管理 
zr @contextmanager 不 错 的 使 用 实例 。 用 法 如 示例 15-8 所 示 。 


示例 15-8 ”用 于 原 地 重 写 文件 的 上 下 文 管理 器 


import csv 


with inplace(csvfilename, 'r', newline='') as (infh, outfh): 
reader = csv.reader(infh) 
writer = csv.writer(outfh) 


for row in reader: 
row += ['new', ‘columns'] 


writer.writerow(row) 


inplace 函数 是 个 上 下 文 管理 器 ， 为 同一 个 文件 提供 了 两 个 句柄 〈 这 个 示 
例 中 的 infh 和 outfh) ， 以 便 同 时 读 写 同一 个 文件 。 这 比 标准 库 中 的 
fileinput.input 函数 ;顺便 说 一 下 ， 这 个 函数 也 提供 了 一 个 上 下 文 管理 
as) 易于 使 用 。 


如 果 想 学 习 Martijn 实现 inplace 的 源码 〈 列 在 这 篇 文章 中 ) ， 找 到 
yield 关键 字 ， 在 此 之 前 的 所 有 代码 都 用 于 设置 上 下 文 : 先 创建 备份 文件 ， 
然后 打开 并 产 出 enter_ ”方法 返回 的 可 读 和 可 写 文 件 句 柄 的 引用 。 
yield 关键 字 之 后 的 exit 处理 过 程 把 文件 句柄 关闭 ; 如 果 什 么 地 方 
出 错 了 ， 那 么 从 备份 中 恢复 文件 。 


注意 ， 在 @contextmanager 装饰 器 装饰 的 生成 器 中 ，yield 与 迭代 没有 
任何 关系 。 在 本 节 所 举 的 示例 中 ， 生 成 器 函数 的 作用 更 像 是 协 程 ， 执行 到 某 
o 让 客户 代码 运行 ， 直 到 客户 让 协 程 继续 做 事 。 第 16 章 会 全 面 

讨论 协 程 。 


15.5 ”本 章 小 结 


本 章 从 简单 的 话题 入 手 ， 先 讨论 了 for、while 和 try Wh else F 
句 。 当 你 习惯 else 子 句 在 这 些 语句 中 的 奇怪 意思 之 后 ， 我 相信 else fel 
明 你 的 意图 。 


然后 ， 本 章 讨 论 了 上 下 文 管理 器 和 with 语句 的 作用 。 很 快 我 们 就 知道 ， 除 
了 自动 关闭 打开 的 文件 之 外 ，with 语句 还 有 很 多 用 途 。 我 们 自己 动手 实现 
了 一 个 上 下 文 管理 器 一 一 含有 __enter。 /exit __ 方法 的 
LookingGlass 类 ， 说 明了 如 何在 __exit__ 方法 中 处 理 异 常 。Raymond 
Hettinger 在 PyCon US 2013 上 所 做 的 主题 演讲 传达 了 一 个 重要 的 观点 : 
with 不 仅 能 管理 资源 ， 还 能 用 于 去 掉 常 规 的 设置 和 清理 代码 ， 或 者 在 另 一 
人 执行 的 操作 (“What Makes Python Awesome?”， 第 21 张 幻灯 


最 后 ， 我 们 分 析 了 标准 库 中 context1lib 模块 里 的 函数 。 其 中 ， 
@contextmanager 装饰 器 能 把 包含 一 个 yield 语句 的 简单 生成 器 变 成 上 
下 文 管理 器 一 一 这 比 定义 一 个 至 少 包 含 两 个 方法 的 类 要 更 简洁 。 我 们 使 用 
looking_glass 生成 器 函数 实现 了 LookingGlass 类 ， 还 讨论 了 使 用 
@contextmanager 时 如 何 处 理 异 常 。 


@contextmanager 装饰 器 优雅 且 实 用 ， 把 三 个 不 同 的 Python 特性 结合 到 
了 一 起 : 函数 装饰 器 、 生 成 器 和 with 语句 。 


15.6 ”延伸 阅读 


Python 语言 参考 手册 中 的 “8. Compound statements” 一 章 全 面 说 明了 if ` 
for、while 和 try 语句 的 else 子 句 。 关 于 try/except 语句 (有 
else 子 句 ， 或 者 没有 ) 是 否 符合 Python 风格 ，Raymond Hettinger 在 Stack 
Overflow 中 对 “Is it a good practice to use try-except-else in Python?” 这 一 问题 做 
了 精彩 的 回答 。 在 Alex Martelli 58 (Python 技术 手册 (第 2 版 ，》 一 书 
中 ， 有 一 章 是 关于 异常 的 ， 那 一 章 极 好 地 讨论 了 EAFP 风格 。Alex 认为 “ 取 
得 原 这 比 获得 许可 容易 ”是 由 计算 领域 的 先驱 Grace Hopper 首先 提出 的 。 


在 Python 标准 库 文档 中 ，“4. Built-in Types” 一 章 中 有 一 节 专 门 说 明了 上 下 文 
管理 器 的 类 型 。Python 语言 参考 手册 中 还 有 __enter / exit ”两 个 
特殊 方法 的 文档 ， 在 “3.3.8. With Statement Context Managers” — F ° EFX 
管理 器 在 “PEP 343 一 The“with’Statement” 中 引入 。 这 份 PEP 不 易 读 懂 ， 因 为 
大 量 篇 幅 都 在 讲 极端 情况 ， 以 及 反对 其 他 提案 。 这 就 是 PEP 的 特点 。 


在 PyCon US 2013 的 主题 演讲 中 ，Raymond Hettinger 强调 ，with 语句 是 “这 
门 语言 的 一 项 迷人 特性 ”。 在 这 次 大 会 上 的 “Transforming Code into Beautiful, 
Idiomatic Python 演讲 中 ， 他 还 展示 了 上 下 文 管理 器 的 儿 个 有 趣 应 用 。 


Jeff Preshing 写 的 一 篇 博客 文章 很 有 趣 ， 题 为 "The Python with Statement by 
Example”， 他 举例 说 明了 pycairo 图 形 库 中 的 上 下 文 管理 器 。 


Beazley 与 Jones 在 他 们 的 《Python Cookbook (38 3 版 ) 中文 版 》 一 书 中 ， 
发 明了 上 下 文 管理 器 的 独特 用 途 。“8.3 让 对 象 支持 上 下 文 管理 协议 ”一 节 实 
现 了 一 个 LazyConnection 类 ， 它 的 实例 是 上 下 文 管理 器 ， 在 with 块 中 
能 自动 打开 和 关闭 网 络 连接 。“9.22 以 简单 的 方式 定义 上 下 文 管理 器 ”一 节 编 
写 了 一 个 用 于 统计 代码 运行 时 间 的 上 下 文 管理 器 ， 还 编写 了 一 个 使 用 事务 修 
改 list 对 象 的 上 下 文 管理 器 : 在 with 块 中 创建 list 实例 的 副本 ， 所 有 
改动 都 针对 那个 副本 ; MS with 块 没 有 抛 出 异常 ， 正 常 执行 完毕 之 后 , T 
用 副本 替代 原来 的 列表 。 这 样 做 简单 又 巧妙 。 


取出 面包 


在 PyCon US 2013 的 主题 演讲 “What Makes Python Awesome” , 
Raymond Hettinger 说 他 第 一 次 看 到 with 语句 的 提案 时 ， 觉 得 “有 点 星 
TENETE” © AMRA ARH RIL © PEP 通常 难以 阅读 ，PEP 343 尤其 
如 此 。 


然后 ，Hettinger 告诉 我 们 ， 他 认识 到 在 计算 机 语言 的 发 展 历 程 中 ， 子 程 
序 是 最 重要 的 发 明 。 如 果 有 一 系列 操作 ， 如 A-B-C 和 了 P-B-Q， 和 那么 可 以 
FEB 拿 出 来 ， 变 成 子 程序 。 这 就 好 比 把 三 明治 的 馅 儿 取 出 来 ， 这 样 我 们 
就 能 使 用 金枪鱼 搭配 不 同 的 面包 。 可 是 ， 如 果 我 们 想 把 面包 取出 来 ， 使 
用 小 麦 面包 来 不 同 的 馅 儿 呢 ? 这 就 是 with 语句 实现 的 功能 。with 语 
句 是 子 程序 的 补充 。Hettinger 接着 说 道 : 


with 语句 是 非常 了 不 起 的 特性 。 我 建议 你 在 实践 中 深 挖 这 个 特性 
的 用 途 。 使 用 with 语句 或 许 能 做 意义 深远 的 事情 。with 语句 最 
好 的 用 法 还 未 被 发 掘 出 来 。 我 预料 ， 如 果 有 好 的 用 法 ， 其 他 语言 以 
及 未 来 的 语言 会 借鉴 这 个 特性 。 或 许 ， 你 正在 参与 的 事情 几乎 与 子 
程序 的 发 明 一 样 意义 深远 。 


Hettinger KU, (HS AT with 语句 的 作用 。 尽 管 如 此 ，with 语句 仍 
征 一 个 十 分 有 用 的 特性 。 他 用 三 明治 类 比 ， 道 出 with 语句 是 子 程序 的 
补充 ， 那 一 刻 ， 我 的 脑海 中 浮现 了 许多 可 能 性 。 


如 果 你 想 让 任何 人 信服 Python 是 出 色 的 语言 ， 一 定 要 观看 Hettinger 的 
主题 演讲 。 关 于 上 下 文 管理 器 的 部 分 从 23:00 开始 ， 到 26:15 结束 。 不 
过 ， 整 个 主题 演讲 都 很 精彩 。 
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如 果 Python 书籍 有 一 定 的 指导 作用 ， 那 么 〈 协 程 就 是 ) 文档 最 匮乏 、 最 
鲜 为 人 知 的 Python 特性 ， 因 此 表面 上 看 是 最 无 用 的 特性 。 


David Beazley 
Python 图 书 作者 


字典 为 动词 “to yield” 给 出 了 两 个 释义 ， 产 出 和 计 步 。 对 于 Python 生成 器 中 的 
yield 来 说 ， 这 两 个 含义 都 成 立 。yield item 这 行 代码 会 产 出 一 个 值 ， 
提供 给 next(...) 的 调用 方 ; 此 外 ， 还 会 作出 让 步 ， 和 暂停 执行 生成 器 ， 让 
调用 方 继续 工作 ， 直 到 需要 使 用 另 一 个 值 时 再 调用 next( )。 调 用 方 会 从 生 
成 器 中 拉 取 值 。 


从 句法 上 看 ， 协 程 与 生成 费 类 似 ， 都 是 定义 体 中 包含 yield FAIK 
数 。 可 是 ， 在 协 程 中 ，yield 通常 出 现在 表达 式 的 右边 (例如 ，datum = 
yield) ， 可 以 产 出 值 ， 也 可 以 不 产 出 一 一 如 果 yield 关键 字 后 面 没有 表 
达 式 ， 那 么 生成 器 产 出 None。 协 程 可 能 会 从 调用 方 接收 数据 ， 不 过 调用 方 
把 数据 提供 给 协 程 使 用 的 是 ,send(datum) 方法 ， 而 不 是 next(...) 画 
数 。 通 常 ， 调 用 方 会 把 值 推送 给 协 程 。 

yield 关键 字 甚 至 还 可 以 不 接收 或 传 出 数据 。 不 管 数 据 如 何 流动 ，yield 
都 是 一 种 流程 控制 工具 ， 使 用 它 可 以 实现 协作 式 多 任务 ， 协 程 可 以 把 控制 器 
让 步 给 中 心 调度 程序 ， 从 而 激活 其 他 的 协 程 。 

从 根本 上 把 yield 视 作 控制 流程 的 方式 ， 这 样 就 好 理解 协 程 了 。 

本 书 前 面 介 绍 的 生成 器 画 数 作 用 不 大 ， 但 是 进行 一 系列 功能 改进 之 后 ， 得 到 
。 了 解 Python 协 程 的 进化 过 程 有 助 于 理解 各 个 阶段 改进 的 功 
能 和 复杂 度 。 


本 章 首 先 要 简单 介绍 生成 器 如 何 变 成 协 程 ， 然 后 再 进入 核心 内 容 。 本 章 涵盖 
以 下 话题 : 


。 生 成 器 作为 协 程 使 用 时 的 行为 和 状态 
。 使 用 装饰 器 目 动 预 激 协 程 


。 调用 方 如 何 使 用 生成 器 对 象 的 .close() 和 .throw(...) 方法 控制 
协 程 


。 协 程 终止 时 如 何 返回 值 
e yield from 新 句法 的 用 途 和 语义 
。 使 用 案例 一 一 使 用 协 程 管理 仿真 系统 中 的 并 发 活动 


16.1 生成 器 如 何 进化 成 协 程 


协 程 的 底层 架构 在 *PEP 342—Coroutines via Enhanced Generators” 中 定义 ， 并 
在 Python 2.5 (2006 年 ) 实现 了 。 自 此 之 后 ，yield 关键 字 可 以 在 表达 式 中 
使 用 ， 而 且 生 成 器 API 中 增加 了 .send(value) 方法 。 生 成 器 的 调用 方 可 
以 使 用 .send(...) 方法 发 送 数据 ， 发 送 的 数据 会 成 为 生成 屡 函 数 中 
yield 表达 式 的 值 。 因 此 ， 生 成 器 可 以 作为 协 程 使 用 。 协 程 是 指 一 个 过 程 ， 
这 个 过 程 与 调用 方 协作 ， 产 出 由 调用 方 提供 的 值 。 


除了 .send(...) Ai, PEP 342 还 添加 了 .throw(...) #1 .close() 
方法 : BPA ER ELEVA To ee as, TEE ca SE, 后 者 的 作用 是 终 
止 生成 器 。 下 一 节 和 16.5 节 会 说 明 这 些 方法 。 

协 程 最 近 的 演进 来 自 Python 3.3 (2012 F) 实现 的 “PEP 380—Syntax for 
Delegating to a Subgenerator” ° PEP 380 对 生成 器 函数 的 句法 做 了 两 处 改动 ， 
以 便 更 好 地 作为 协 程 使 用 。 


。 现在， 生成 器 可 以 返回 一 个 值 ， 以 前 ， 如 果 在 生成 颖 中 给 return 语句 
提供 值 ， 会 抛 出 SyntaxError 异常 。 


«e JIA T yield from 句法 ， 使 用 它 可 以 把 复杂 的 生成 器 重 构成 小 型 
的 般 套 生成 器 ， 省 去 了 之 前 把 生成 器 的 工作 委托 给 子 生成 器 所 需 的 大 量 
样板 代码 。 

这 两 个 最 新 的 改动 分 别 在 16.6 节 和 16.7 节 讨 论 。 


。 我 们 先 从 基本 概念 和 示例 入 手 ， 然 后 再 深入 越 来 越 难以 理 


16.2 ”用 作协 程 的 生成 器 的 基本 行为 


示例 16-1 展示 了 协 程 的 行为 。 
示例 16-1 可 能 是 协 程 最 简单 的 使 用 演示 


>>> def simple coroutine(): # @ 
print('-> coroutine started') 
x = yield #@ 
print('-> coroutine received:', x) 


>>> my_coro = simple_coroutine() 

>>> my_coro # © 

<generator object simple_coroutine at 0x100c2be10> 
>>> next(my_coro) #@ 

-> coroutine started 

>>> my_coro.send(42) # © 

-> coroutine received: 42 

Traceback (most recent call last): # @ 


StopIteration 


@ 协 程 使 用 生成 器 函数 定义 : 定义 体 中 有 yield Kits ° 

@ yield 在 表达 式 中 使 用 ， 如 果 协 程 只 需 从 客户 那里 接收 数据 ， 那 么 产 出 
的 值 是 None 一 一 这 个 值 是 隐 式 指定 的 ， 因 为 yield 关键 字 右 边 没有 表达 
até 

© 与 创建 生成 器 的 方式 一 样 ， 调 用 函数 得 到 生成 器 对 象 。 


O 首先 要 调用 next(...) 函数 ， 因 为 生成 器 还 没 启动 ， 没 在 yield 语句 
处 暂停 ， 所 以 一 开始 无 法 发 送 数据 。 

O 调用 这 个 方法 后 ， 协 程 定义 体 中 的 yield 表达 式 会 计算 出 42; 现在 ， 协 
程 会 恢复 ， 一 直 运 行 到 下 一 个 yield 表达 式 ， 或 者 终止 。 


@ 这 里 ， 控 制 权 流动 到 协 程 定义 体 的 末尾 ， 导 致 生成 右 像 往常 一 样 抛 出 


StopIteration 异常 。 


协 程 可 以 身 处 四 个 状态 中 的 一 个 。 当 前 状态 可 以 使 用 
inspect.getgeneratorstate(...) 函数 确定 ， 该 函数 会 返回 下 壕 字 符 
串 中 的 一 个 。 


"GEN_CREATED ' 


"GEN _RUNNING' 
解释 器 正在 执行 。1 


1 只 有 在 多 线程 应 用 中 才能 看 到 这 个 状态 。 此 外 ， 生 成 器 对 象 在 自己 身上 调用 getgeneratorstate 
函数 也 行 ， 不 过 这 样 做 没什么 用 。 


"GEN_SUSPENDED' 


TE yield 表达 式 处 暂停 。 


'GEN_CLOSED' 
执行 结束 。 


因为 send 方法 的 参数 会 成 为 暂停 的 yie1Ld 表达 式 的 值 ， 所 以 ， 仅 当 协 程 
处 于 和 暂停 状态 时 才能 调用 send 方法 ， 例 如 my_coro.send(42)。 不 过 ， 
如 果 协 程 还 没 激活 ( 即 ， 状 态 是 'GEN_CREATED') ， 情 况 就 不 同 了 。 因 
此 ， 始 终 要 调用 next (my_coro) 激活 协 程 一 也 可 以 调用 
my_coro.send(None), 效果 一 样 。 


如 果 创 建 协 程 对 象 后 立即 把 None 之 外 的 值 发 给 它 ， 会 出 现下 述 错 误 ; 


>>> my_coro = simple_coroutine() 
>>> my_coro.send(1729) 
Traceback (most recent call last): 


File "<stdin>", line 1, in <module> 
TypeError: can't send non-None value to a just-started generator 


注意 错误 消息 ， 它 表述 得 相当 清楚 。 
最 先 调 用 next (my_coro) 函数 这 一 步 通常 称 为 “ 预 激 ” (prime) 协 程 
下 让 协 程 向 前 执行 到 第 一 个 yield 表达 式 ， 准 备 好 作为 活跃 的 协 程 使 
H) 。 
下 面 举 个 产 出 多 个 值 的 例子 ， 以 便 更 好 地 理解 协 程 的 行为 ， 如 示例 16-2 所 
ZR œ 
示例 16-2 产 出 两 个 值 的 协 程 


>>> def simple_coro2(a): 
print('-> Started: a =', a) 


b = yield a 

print('-> Received: b =', b) 
c = yield a + b 

print('-> Received: c =', c) 


>>> my_coro2 = simple_coro2(14) 

>>> from inspect import getgeneratorstate 

>>> getgeneratorstate(my_coro2) @ 

"GEN_CREATED' 

>>> next(my_coro2) @ 

-> Started: a = 14 

14 

>>> getgeneratorstate(my_coro2) © 

"GEN_SUSPENDED' 

>>> my_coro2.send(28) @ 

-> Received: b = 28 

42 

>>> my_coro2.send(99) © 

-> Received: c = 99 

Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 

StopIteration 

>>> getgeneratorstate(my_coro2) © 

"GEN_CLOSED' 


@ inspect.getgeneratorstate 函数 指明 ， 处 于 GEN_CREATED 状态 
( 即 协 程 未 启动 ) 。 


© 癌 前 执行 协 程 到 第 一 个 yield KA, 打印 -> Started: a = 14 消 
息 ， 然 后 产 出 a 的 值 ， 并 且 和 暂停， 等 待 为 b 赋值 。 


© getgeneratorstate 函数 指明 ， 处 于 GEN_SUSPENDED 状态 ( 即 协 程 
在 yield 表达 式 处 暂停 ) 。 


O 把 数字 28 发 给 暂停 的 协 程 ， 计 算 yield 表达 式 ， 得 到 28， 然 后 把 那个 
数 绑 定 给 b。 打 印 -> Received: b = 28 消息 ， 产 出 a + b 的 值 
(42) ， 然 后 协 程 暂停 ， 等 待 为 c 赋值 。 


O 把 数字 99 发 给 暂停 的 协 程 ， 计 算 yield 表达 式 ， 得 到 99， 然 后 把 那个 
数 绑 定 给 c。 打 印 -> Received: c = 99 消息 ， 然 后 协 程 终止 ， 导 致 生 
成 器 对 象 抛 出 StopIteration 异常 。 


© getgeneratorstate 函数 指明 ， 人 处 于 GEN_CLOSED 状态 ( 即 协 程 执行 


结束 ) 。 


关键 的 一 点 是 ， 协 程 在 yield 关键 字 所 在 的 位 置 暂 停 执 行 。 前 面 说 过 ， 在 
赋值 语句 中 ，= 右边 的 代码 在 赋值 之 前 执行 。 因 此 ， 对 于 b = yield a 这 
行 代码 来 说 ， 等 到 客户 端 代码 再 激活 协 程 时 才 会 设 定 b 的 值 。 这 种 行为 要 花 
点 时 间 才 能 习惯 ， 不 过 一 定 要 理解 ， 这 样 才能 弄 懂 异步 编程 中 yield 的 作 
用 (后 文 探讨 ) 


simple_coro2 协 程 的 执行 过 程 分 为 3 个 阶段 ， 如 图 16-1 所 示 。 


(1) 调用 next (my_coro2)， 打 印 第 一 个 消息 ， 然 后 执行 yield a, PHE 
数字 14。 


(2) 调用 my_coro2. send(28)， 把 28 赋值 给 bp， 打印 第 二 个 消息 ， 然 后 
执行 yield a + b， 产 出 数字 42 ° 


(3) 调用 my_coro2.send(99)， 把 99 赋值 给 c， 打 印 第 三 个 消息 ， 协 程 
终止 。 


>>> my_coro2 = simple_coro2(14) 


def simple_coro2(a): | >>> next(my_coro2) eerie ress 


print('-> Started: a =', a) @ -> Started: a = 14 
b =l|yield a a N OE ee Oe Se ONES eas A 
print('-> Received: b =', b) >>> my_coro2.send(28) 


c =|yield a + b @_-> Received: b = 28 


print('-> Received: c =', c) 


>>> my_coro2.send(99) 
@ -> Received: c = 99 
Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
StopIteration 


图 16-1: 执行 simple_coro2 HEH 3 个 阶段 (注意 ， 各 个 阶段 都 在 
yield 表达 式 中 结束 ， 而 且 下 一 个 阶段 都 从 那 一 行 代码 开始 ， 然 后 再 把 
yield 表达 式 的 值 赋 给 变量 ) 


下 面 来 看 一 个 稍微 复杂 的 协 程 示例 。 


16.3 示例 : 使 用 协 程 计算 移动 平均 值 


第 7 草 讨 论 财 包 时 ， 我 们 分 析 了 如 何 使 用 对 象 计 算 移动 平均 值 : 示例 7-8 定 
和 简单 的 类 ; 示例 7-14 定义 的 是 一 个 高 阶 函 数 ， 用 于 生成 一 个 闭 

TE OCH IRIE total 和 count 变量 的 值 。 示 例 16-3 展示 如 何 使 
人 程 实现 相同 的 功能 


“这 个 示例 的 灵感 来 自 Jacob Holm 在 Python-ideas 邮件 列表 中 发 布 的 一 个 代码 片段 ， 他 发 布 的 消息 题 


为 “Yield-From: Finalization guarantees”。 在 那个 消息 的 后 续 回 复 中 ， 那 段 代 码 有 几 个 变 体 。Holm 在 
003912 号 消息 中 i : k 


进一步 说 明了 自己 的 想法 。 


示例 16-3 coroaverager0.py: 定义 一 个 计算 移动 平均 值 的 协 程 


def averager(): 
total = 0.0 
count = 0 
average = None 
while True: @ 


term = yield average @ 
total += term 

count += 1 

average = total/count 


@ 这 个 无 限 循 环 表 明 ， 只 要 调用 方 不 断 把 值 发 给 这 个 协 程 ， 它 束 会 一 直接 收 
值 ， 然 后 生成 结果 。 仪 当 调用 方 在 协 程 上 调用 ,close( ) 方法 ， 或 者 没有 对 
协 程 的 引用 而 被 垃圾 回收 程序 回收 时 ， 这 个 协 程 才 会 终止 。 


@ 这 里 的 yield 表达 式 用 于 暂停 执行 协 程 ， 把 结果 发 给 调用 方 ; 还 用 于 接 
收 调用 方 后 面 发 给 协 程 的 值 ， 恢 复 无 限 循 环 。 


使 用 协 程 的 好 处 是 ，total 和 count 声明 为 局 部 变量 即 可 ， 无 需 使 用 实例 
属性 或 团 包 在 多 次 调用 之 间 保 持 上 下 文 。 示 例 16-4 是 使 用 averager 协 程 
的 doctest 。 


示例 16-4 coroaverager0.py: 示例 16-3 中 定义 的 移动 平均 值 协 程 的 


doctest 


>>> coro_avg = averager() @ 
>>> next(coro_avg) @ 
>>> coro_avg.send(10) © 


10.0 

>>> coro_avg.send(30) 
20.0 

>>> coro_avg.send(5) 
15.0 


@ 创建 协 程 对 象 。 
@ 调用 next 函数 ， 预 激 协 程 。 
© 计算 移动 平均 值 ， 多 次 调用 ,send(... ) 方法 ， 产 出 当前 的 平均 值 。 


Æ Eyt doctest 中 (示例 16-4) ， 调 用 next (coro_ avg) 函数 后 ， 
前 执行 到 yield 表达 式 ， 广 出 average 变量 的 初始 值 因此 不 
会 出 现在 控制 台中 。 此 时 ， 协 程 在 yield 表达 式 处 暂停 ， 等 到 调用 方 发 送 
值 。coro_avg .send(10) 那 一 行 发 送 一 个 值 ， cu ERRANEN 
给 term， 并 更 新 total ` count 和 average 三 个 变量 的 值 ， 然 后 开始 
while JEA TREN, rth average 变 o 等 待 下 一 次 为 term 
量 赋值 


细心 的 读者 可 能 迫切 地 想 知道 如 何 终止 执行 averager 实例 (如 
coro_avg) ， 因 为 定义 体 中 有 个 无 限 循环 。16.5 厄 会 讨论 这 个 话题 。 


讨论 如 何 终止 协 程 之 前 ， 我 们 要 先 谈 谈 如 何 局 动 协 程 。 使 用 协 程 之 前 必须 预 
激 ， 可 是 这 一 此 容易 瑟 记 。 为 了 避免 瑟 记 ， 可 以 在 协 程 上 使 用 一 个 特殊 的 装 
饰 器 。 接 下 来 介绍 这 样 一 个 装饰 器 。 


16.4 ” 预 激 协 程 的 装饰 器 


如 果 不 预 激 ， 那 么 协 程 没 什么 用 。 调 用 my_coro .send(x) 之 前 ， 记 住 一 
定 要 调用 next(my_coro)。 为 了 简化 协 程 的 用 法 ， 有 时 会 使 用 一 个 预 激 装 
饰 器 。 示 例 16-5 中 的 coroutine 装饰 器 是 一 例 。3 


° 


3 网 上 有 多 个 类 似 的 装饰 器 。 这 个 改 自 ActiveState 中 的 一 个 诀窍 “Pipeline made of coroutines”， 作 
者 是 Chaobin Tang， 而 他 是 受到 了 David Beazley 的 启发 。 


It 


示例 16-5 coroutil.py: 预 激 协 程 的 装饰 器 


from functools import wraps 


Her coroutine(func): 
"装饰 器 :向 前 执行 到 第 一 个 `yield RAR, Fi func" 
@wraps(func) 
def primer(*args,**kwargs): @ 
gen = func(*args,**kwargs) @ 
next(gen) © 
return gen @ 
return primer 


@ 把 被 装饰 的 生成 器 函数 替换 成 这 里 的 primer 函数 ， 调 用 primer 函数 
时 ， 返回 预 激 后 的 生成 器 o 


@ 调用 被 装饰 的 函数 ， 获 取 生 成 器 对 象 。 


© 预 激 生 成 器 。 
返回 生成 器 。 
示例 16-6 展示 @coroutine 装饰 器 的 用 法 。 请 与 示例 16-3 对 比 。 


示例 16-6 coroaveragerl.py: 使 用 示例 16-5 中 定义 的 @coroutine 装 
饰 妖 定义 并 测试 计算 移动 平均 值 的 协 程 


于 计算 移动 平均 值 的 协 程 


>>> coro_avg = averager() @ 

>>> from inspect import getgeneratorstate 
>>> getgeneratorstate(coro_avg) @ 
'GEN_SUSPENDED' 

>>> coro_avg.send(10) ® 

10.0 

>>> coro_avg.send(30) 

20.0 

>>> coro_avg.send(5) 

15.0 


from coroutil import coroutine ©@ 


@coroutine © 
def averager(): © 
total = 0.0 
count = 0 
average = None 
while True: 
term = yield average 
total += term 
count += 1 
average = total/count 


@ 调用 averager()E 函数 创建 一 个 生成 器 中 对象， 在 coroutine 装饰 器 的 
primer 函数 中 已 经 预 激 了 这 个 生成 器 。 


@ getgeneratorstate 函数 指明 ， 人 处 于 GEN_SUSPENDED 状态 ， 因 此 这 
个 协 程 已 经 准备 好 ， 可 以 接收 值 了 。 


© 可 以 立即 开始 把 值 发 给 coro_avg 一 一 这 正 是 coroutine 装饰 器 的 目 
的 。 


@ 导入 coroutine 装饰 器 。 

O 把 装饰 器 应 用 到 averager HALE ° 

O 函数 的 定义 体 与 示例 16-3 完全 一 样 。 
are cae 


Tornado 提供 了 tornado. gen 装饰 器 。 


使 用 yield from 句法 (参见 16.7 77) 调用 协 程 时 ， 会 自动 预 激 ， 因 此 与 
示例 16-5 中 的 @coroutine Seri as AFEZ ° Python 3.4 标准 库 里 的 
asyncio.coroutine 装饰 器 (第 18 章 介 绍 ) 不 会 预 激 协 程 ， 因 此 能 兼容 
yield from 句法 ° 


接 下 来 探讨 协 程 的 重要 特性 一 一 用 于 终止 协 程 ， 以 及 在 协 程 中 抛 出 异常 的 方 
JE o 
16.5 ”终止 协 程 和 异常 处 理 
协 程 中 未 处 理 的 腊 常会 向 上 冒 泡 ， 传 给 next 函数 或 send 方法 的 调用 方 

〈 即 触发 协 程 的 对 象 ) 。 示 例 16-7 举例 说 明 如 何 使 用 示例 16-6 中 由 装饰 器 
定义 的 averager 协 程 。 

示例 16-7 ”未 处 理 的 异常 会 导致 协 程 终止 


>>> from coroaverager1 import averager 
>>> coro_avg = averager() 

>>> coro_avg.send(40) # @ 

40.0 

>>> coro_avg.send(50) 

45.0 

>>> coro_avg.send('spam') #@ 
Traceback (most recent call last): 


TypeError: unsupported operand type(s) for +=: 'float' and 'str' 
>>> coro_avg.send(60) # © 
Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
StopIteration 


@ 使 用 @coroutine 装饰 器 装饰 的 averager 协 程 ， 可 以 立即 开始 发 送 
值 。 


@ 发 送 的 值 不 是 数 子 ， 导 致 协 程 内 部 有 异常 抛 出 。 
© 由 于 在 协 程 内 没有 处 理 异 常 ， 协 程 会 终止 。 如 果 试 图 重新 激活 协 程 ， 会 抛 


出 StopIteration 异常 。 
出 错 的 原因 是 ， 发 送 给 协 程 的 'spam' 值 不 能 加 到 total 变量 上 。 


示例 16-7 暗示 了 终止 协 程 的 一 种 方式 : 发 送 某 个 哨 符 值 ， 让 协 程 退出 。 内 置 
的 None 和 E11ipsis 等 币 量 经 党 用 作 哨 符 值 。E11ipsis 的 优点 是 ， 数 据 
流 中 不 太 党 有 这 个 值 。 我 还 见 过 有 人 把 StopIteration 类 〈 类 本 号 ， 而 不 
征 实 例 ， 也 不 抛 出 ) 作为 哨 符 值 ; 也 就 是 说 ， 是 像 这 样 使 用 的 ; 


my_coro.send(StopIteration) ° 


从 Python 2.5 开始 ， 客 户 代 码 可 以 在 生成 侨 对 象 上 调用 两 个 方法 ， 显 式 地 把 
异常 发 给 协 程 。 


这 两 个 方法 是 throw 和 close。 


generator.throw(exc_type[, exc_value[, traceback]]) 


致使 生成 器 在 暂停 的 yield KARAK TEENS o MAR Aas Zh 
理 了 抛 出 的 异常 ， 代 码 会 向 前 执行 到 下 一 个 yield 表达 式 ， 而 产 出 的 值 会 
成 为 调用 generator. throw 方法 得 到 的 返回 值 。 如 采 生 成 亏 没 有 处 理 抛 
出 的 异 第 ， 异 津 会 同上 冒 泡 ， 传 到 调用 方 的 上 下 文中 。 


generator.close() 


致使 生成 器 在 和 暂停 的 yield 表达 式 处 抛 出 GeneratorExit 异常 。 如 
果 生 成 絮 没 有 处 理 这 个 异常 ， 或 者 扫 出 了 StopIteration 异常 (通常 是 指 
运行 到 结尾 ) ， 调 用 方 不 会 报错 。 如 果 收 到 GeneratorExit 异常 ， 生 成 器 
一 定 不 能 产 出 值 ， 否 则 解释 器 会 抛 出 RuntimeError 异常 。 生 成 器 抛 出 的 
其 他 异常 会 同上 冒 泡 ， 传 给 调用 方 。 


A ERR RIIETE N RERE Python 语言 参考 手册 中 ， 参 


见 “6.2.9.1.Generator-iterator methods” ° 


下 面 举例 说 明 如 何 使 用 close 和 throw 方法 控制 协 程 。 示 例 16-8 列 出 的 是 
接 下 来 的 例子 使 用 的 demo_exc_handling 函数 。 


示例 16-8 coro_exc_demo.py: 学 习 在 协 程 中 处理 异常 的 测试 代码 


class DemoException(Exception): 
""" 为 这 次 演示 定义 的 异常 类 型 。""" 


def demo_exc_handling(): 
print('-> coroutine started') 
while True: 
try: 
x = yield 
except DemoException: @ 
print('*** DemoException handled. Continuing...') 
else: @ 
print('-> coroutine received: {!r}'.format(x)) 
se RuntimeError('This line should never run.') © 


@ 特别 处 理 DemoException 异常 。 
@ 如 果 没 有 异常 ， 那 么 显示 接收 到 的 值 。 
© 这 一 行 永远 不 会 执行 。 


示例 16-8 中 的 最 后 一 行 代码 不 会 执行 ， 因 为 只 有 未 处 理 的 异常 才 会 中 止 那 个 
无 限 循 环 ， 而 一 旦 出 现 未 处 理 的 异常 ， 协 程 会 立即 终止 。 


demo_exc_handling 函数 的 常规 用 法 如 示例 16-9 所 示 。 


示例 16-9 激活 和 关闭 demo_exc_handling, 没有 异常 


>>> exc_coro = demo_exc_handling() 
>>> next(exc_coro) 

-> coroutine started 

>>> exc_coro.send(11) 

-> coroutine received: 11 

>>> exc_coro.send(22) 


-> coroutine received: 22 

>>> exc_coro.close() 

>>> from inspect import getgeneratorstate 
>>> getgeneratorstate(exc_coro) 
"GEN_CLOSED' 


如 果 把 DemoException 异常 传 入 demo_exc_handling 协 程 ， 它 会 处 
理 ， 然 后 继续 运行 ， 如 示例 16-10 所 示 。 


示例 16-10 把 DemoException 异常 传 入 demo_exc_hand1ling 不 
会 导致 协 程 中 止 


>>> exc_coro = demo_exc_handling() 
>>> next(exc_coro) 

-> coroutine started 

>>> exc_coro.send(11) 

-> coroutine received: 11 


>>> exc_coro.throw(DemoException) 

*** DemoException handled. Continuing... 
>>> getgeneratorstate(exc_coro) 
"GEN_SUSPENDED' 


但 是 ， 如 果 传 入 协 程 的 异常 没有 处 理 ， 协 程 会 停止 ， 即 状态 变 成 
'GEN_CLOSED'。 示 例 16-11 演示 了 这 种 情况 。 


示例 16-11 如 果 无 法 处 理 传 入 的 异常 ， 协 程 会 终止 


>>> exc_coro = demo_exc_handling() 
>>> next (exc_coro) 

-> coroutine started 

>>> exc_coro.send(11) 

-> coroutine received: 11 

>>> exc_coro.throw(ZeroDivisionError ) 
Traceback (most recent call last): 


ZeroDivisionError 
>>> getgeneratorstate(exc_coro) 
"'GEN_CLOSED' 


如 果 不 管 协 程 如 何 结束 都 想 做 些 清理 工作 ， 要 把 协 程 定 义 体 中 相关 的 代码 放 
A try/finally 块 中 ， 如 示例 16-12。 


示例 16-12 coro_finally_demo.py: 使 用 try/finally 块 在 协 程 终止 
时 执行 操作 


class DemoException(Exception): 
""" 为 这 次 演示 定义 的 异常 闫 型 。""" 


def demo_finally(): 
print('-> coroutine started') 
try: 
while True: 
try: 
x = yield 
except DemoException: 
print('*** DemoException handled. Continuing...') 
else: 
print('-> coroutine received: {!r}'.format(x) ) 
finally: 


print('-> coroutine ending' ) 


Python 3.3 引入 yield from 结构 的 主要 原因 之 一 与 把 异 稼 传 入 般 套 的 协 程 
有 关 。 另 一 个 原因 是 让 协 程 更 方便 地 返回 值 。 请 继续 往 下 读 ， 了 解 详情 。 


16.6 ”让 协 程 返回 值 


示例 16-13 是 averager 协 程 的 不 同 版 本 ， 这 一 版 会 返回 结果 。 为 了 说 明 如 
何 返 回 值 ， 每 次 激活 协 程 时 不 会 产 BESTIE o PE 
程 不 会 产 出 值 ， 而 是 在 最 后 返回 一 个 值 (通常 是 某 种 累计 值 ) 


示例 16-13 中 的 averager 协 程 返 回 的 结果 是 一 个 namedtuple， 两 个 字 
段 分 别 是 项 数 (count) 和 平均 值 (average) 。 我 本 可 以 只 返回 平均 值 ， 
但 是 返回 一 个 元 组 可 以 获得 累积 数据 的 男 一 个 重要 信息 一 一 项 数 。 


示例 16-13 coroaverager2.py: 定义 一 个 求 平均 值 的 协 程 ， 让 它 返 回 一 
SER 


from collections import namedtuple 


Result = namedtuple('Result', 'count average' ) 


def averager(): 
total = 0.0 
count = 0 
average = None 
while True: 
term = yield 
if term is None: 
break @ 
total += term 
count += 1 
average = total/count 
return Result(count, average) @ 


@ 为 了 返回 值 ， 协 程 必 须 正常 终止 ， 因此， 这 一 版 averager 中 有 个 条 件 
判断 ， 以 便 退 出 累计 循环 。 


四 返回 一 个 namedtuple， 包 含 count 和 average 两 个 字段 。 在 Python 
3.3 ZH, MPRA RAKE, FAME STR AEE ° 


下 面 在 控制 台中 说 明 如 何 使 用 新 版 averager， 如 示例 16-14 所 示 。 


示例 16-14 coroaverager2.py: 说 明 averager 行为 的 doctest 


>>> coro_avg = averager() 
>>> next(coro_avg) 

>>> coro_avg.send(10) @ 
>>> coro_avg.send(30) 

>>> coro_avg.send(6.5) 


>>> coro_avg.send(None) @ 
Traceback (most recent call last): 


StopIteration: Result(count=3, average=15.5) 


一 版 不 产 出 值 。 


@ 发 送 None 会 终止 循环 ， 导 致 协 程 结束 ， 返 回 结果 。 一 如 既往 ， 生 成 器 对 
ASH StopIteration 异常 。 异 常 对 象 的 value 属性 保存 着 返回 的 
值 。 


注意 ，return 表达 式 的 值 会 偷偷 传 给 调用 方 ， 赋 值 给 StopIteration 7 
常 的 一 个 属性 。 这 样 做 有 点 不 合 常理 ， 但 是 能 保留 生成 器 对 象 的 常规 行为 
— ERIE StopIteration 异常 。 

示例 16-15 展示 如 何 获取 协 程 返回 的 值 


示例 16-15 捕获 StopIteration 异常 ， 获 取 averager 返回 的 值 


o 


coro_avg = averager() 
next(coro_avg) 
coro_avg.send(10) 
coro_avg.send(30) 
coro_avg.send(6.5) 
try: 

; coro_avg.send(None) 

. except StopIteration as exc: 

result = exc.value 


>>> result 
Result(count=3, average=15.5) 


获取 协 程 的 返回 值 虽然 要 绕 个 轿子， 但 这 是 PEP 380 定义 的 方式 ， 当 我 们 意 


识 到 这 一 o 通 了 : yield from 结构 会 在 内 部 自动 捕获 
oi a = 。 这 种 处 理 方式 与 for 循环 处 理 StopIteration 
异常 的 方式 一 样 : E E 常 。 yield 
From 结构 来 说 ， 解 释 器 不 仅 会 捕获 eae la 还 会 把 value 
属性 的 值 变 成 yield from 表达 式 的 值 。 可 惜 ， 0 


交互 的 方式 测试 这 种 行为 ， 因 为 在 函数 外 部 使 用 yie1d from (以 及 
yield) 会 导致 句法 出 错 。4 


4ipython 有 个 扩展 一 一 ipython-yf， 安 装 这 个 扩展 后 可 以 在 ipython 控制 台中 直接 执行 yield frome 
这 个 扩展 用 于 测试 异步 代码 ， 可 以 结合 asyncio 模块 使 用 。 这 个 扩展 已 经 提交 为 Python 3.5 的 补 
丁 ， 但 是 没有 被 接受 。 参 见 Python 缺陷 追踪 系统 中 的 22412 号 工 单 : Towards an asyncio-enabled 
command line ° 


BR Sas AA (a EAA yield from 结构 按照 PEP 380 定义 的 方式 获 
HY averager 协 程 返回 的 值 。 下 面 讨 论 yield from 结构 。 


16.7 使 用 yield from 


首先 要 知道 ，yield from 是 全 新 的 语言 结构 。 它 的 作用 比 yield 多 很 
多 ， 因 此 人 们 认为 继续 使 用 那个 关键 字 多 少 会 引起 误解 。 在 其 他 语言 中 ， 类 
似 的 结构 使 用 await 关键 字 ， 这 个 名 称 好 多 了 ， 因 为 它 传 达 了 至 关 重 要 的 
一 点 : 在 生成 器 gen 中 使 用 yield from subgen() 时 ，subgen 会 获得 
控制 权 ， 把 产 出 的 值 传 给 gen 的 调用 方 ， 即 调用 方 可 以 直接 控制 subgen 。 
与 此 同时 ，gen 会 阻塞 ， 等 待 subpgen 终止 。5 


5 写作 本 书 时 ， 有 个 PEP 正在 讨论 中 ， 提 议 增加 await 和 async 关键 字 : PEP 492—Coroutines with 
async and await syntax ° 


第 14 章 说 过 ，yield from 可 用 于 简化 for 循环 中 的 yield 表达 式 。 例 
如 : 


>>> def gen(): 
ae for c in 'AB': 
yield c 
for i in range(1, 3): 


yield i 


>>> list(gen()) 
['A', 'B', 1, 2] 


可 以 改写 为 : 


>>> def gen(): 
yield from 'AB' 
yield from range(1, 3) 


>>> list(gen()) 
['A', 'B', 1, 2] 


14.10 节 首 次 提 到 yield from 时 举 了 一 个 例子 ,演示 这 个 结构 的 用 法 ， 如 
示例 16-16 所 示 。6 


6 示例 16-16 仅 供 教学 使 用 。itertools 模块 提供 了 优化 版 chain 画 数 ， 使 用 C 语言 编写 。 


示例 16-16 使 用 yield from 链接 可 迭代 的 对 象 


>>> def chain(*iterables): 
for it in iterables: 
yield from it 


>>> s = 'ABC' 

>>> t = tuple(range(3) ) 
>>> list(chain(s, t)) 
['A', 'B', tery 0, 1, 2] 


在 Beazley 与 Jones 的 《Python Cookbook (第 3 有 版) 中 文 版 》 一 书 中 ,，“4.14 
扁平 化 处 理 舱 套 型 的 序列 ”一 站 有 个 稍微 复杂 (不 过 更 有 用 ) 的 yield 
From 示例 (源码 在 GitHub 中 ) 


yield from x 表达 式 对 x 对 象 所 做 的 第 一 件 事 是 ， 调 用 iter(x), MAP 
获取 迭代 器 。 因 此 ，x 可 以 是 任何 可 迭代 的 对 象 。 


Ale, WR yield from 结构 唯一 的 作用 是 奉 代 产 出 值 的 租 套 for 循环 ， 
这 个 结构 很 有 可 能 不 会 添加 到 Python BSF ° yield from 结构 的 本 质 作 
用 无 法 通过 简单 的 可 迭代 对 象 说 明 ， 而 要 发 散 思 维 ， 使 用 磐 套 的 生成 囊 。 
Ik, 51A yield from 结构 的 PEP 380 7# T “Syntax for Delegating to a 
Subgenerator”(“ 把 职责 委托 给 子 生 成 器 的 句法 ”) 这 个 标题 。 

yield from 的 主要 功能 是 打开 双向 通道 ， 把 最 外 层 的 调用 方 与 最 内 层 的 子 
生成 器 连接 起 来 ， 这 样 二 者 可 以 直接 发 送 和 产 出 值 ， 还 可 以 直接 传 入 异常 ， 
而 不 用 在 位 于 中 间 的 协 程 中 添加 大 量 处 理 异 常 的 样板 代码 。 有 了 这 个 结构 ， 
协 程 可 以 通过 以 前 不 可 能 的 方式 委托 职责 。 


AEH yield from 结构 ， 就 要 大 幅 改 动 代码 。 为 了 说 明 需 要 改动 的 部 
分 ，PEP 380 使 用 了 一 些 专门 的 术语 。 


委派 生成 器 
包含 yield from <iterable> 表达 式 的 生成 器 函数 。 
子 生成 器 


M yield from 表达 式 中 <iterable> 部 分 获取 的 生成 器 。 这 就 是 
PEP 380 的 标题 (“Syntax for Delegating to a Subgenerator”) 中 所 说 的 “ 子 生成 


口上 yy 


ax” (subgenerator) ° 
调用 方 


PEP 380 使 用 “调用 方 ”这 个 术语 指 代 调 用 委派 生成 恬 的 客户 端 代码 。 在 
不 同 的 语 境 中 ， 我 会 使 用 “客户 端 ” 代 替 “ 调 用 方 ”” 以 此 与 委派 生成 器 (也 是 
调用 方 ， 因 为 它 调用 了 了 于 生成 器 ) 区 分 开 。 


~ PEP 380 经 常 使 用 “迭代 器 ”这 个 词 指 代 子 生成 器 。 这 样 会 让 人 误 
解 ， 因 为 委派 生成 器 也 是 迭代 器 。 因 此 ， 我 选择 使 用 “ 子 生成 器 ”这 个 术 
语 ， 与 PEP 380 的 标题 (“Syntax for Delegating to a Subgenerator”) 保持 
一 致 。 然 而 ， 子 生成 器 可 能 是 简单 的 迭代 器 ， 只 实现 了 __next_ ^ 
法 ; 但 是 ，yield from 也 能 处 理 这 种 子 生 成 器 。 不 过 ,3 引入 yield 
From 结构 的 目的 是 为 了 支持 实现 了 __next 、send、close 和 
throw 方法 的 生成 器 。 


示例 16-17 能 更 好 地 说 明 yield from 结构 的 用 法 。 图 16-2 把 该 示例 中 各 
个 相关 的 部 分 标识 出 来 了 。” 


| 7 图 16-2 的 灵感 来 自 Paul Sokolovsky 绘制 的 示意 图 。 


子 生 成 器 
averager 


图 16-2: 委派 生成 器 在 yield from 表达 式 处 暂停 时 ， 调 用 方 可 以 直接 把 
数据 发 给 子 生 成 器 ， 子 生成 器 再 把 产 出 的 值 发 给 调用 方 。 子 生成 器 返回 之 
后 ， 解 释 器 会 抛 出 StopIteration 异常 ， 并 把 返回 值 附加 到 异常 对 象 上 ， 
此 时 委派 生成 器 会 恢复 


coroaverager3.py 脚本 从 一 个 字典 中 读 取 虚构 的 七 年 级 男女 学 生 的 体重 和 续 
高 。 例 如 ， 'boys;m' 键 对 应 于 9 个 男 学 生 的 身高 (单位 是 


I 


X) , 'girls;kg' 键 对 应 于 10 个 女 学 生 的 体重 (单位 是 千克 ) 。 这 个 脚 
本 把 各 组 数据 传 给 前 面 定 义 的 averager 协 程 ， 然 后 生成 一 个 报告 ， 如 下 所 
示 : 


$ python3 coroaverager3.py 
9 boys averaging 40.42kg 
9 boys averaging 1.39m 


10 girls averaging 42.04kg 
10 girls averaging 1.43m 


示例 16-17 中 列 出 的 代码 显然 不 是 解决 这 个 问题 最 简单 的 方案 ， 但 是 通过 实 
例 说 明了 yield from 结构 的 用 法 。 Sa BALE SBE “What's New in 
Python 3.3” 一 文 给 出 的 例子 。 


示例 16-17 coroaverager3.py: 使 用 yield from 计算 平均 值 并 输出 统 
计 报 告 


from collections import namedtuple 


Result = namedtuple('Result', 'count average') 


# 子 生成 器 

def averager(): @ 
total = 0.0 
count = 0 


average = None 
while True: 
term = yield @ 
if term is None: © 
break 
total += term 
count += 1 
average = total/count 
return Result(count, average) ©@ 


# RIKERA 
def grouper(results, key): © 
while True: @ 
results[key] = yield from averager() @ 


# 客户 端 代码 ， 即 调用 方 
def main(data): © 
results = {} 
for key, values in data.items(): 
group = grouper(results, key) © 
next(group) 四 


for value in values: 
group.send(value) @® 
group.send(None) # 重要 ! @ 


# print(results) #4 如 果 要 调试 ， 去 掉 注释 
report(results) 


# 输出 报告 
def report(results): 
for key, result in sorted(results.items()): 
group, unit = key.split(';') 
print('{:2} {:5} averaging {:.2f}{}'.format( 
result.count, group, result.average, unit)) 


data = { 

'girls;kg': 

[40.9, 38.5, 44.3, 42.2, 45.2, 41.7, 44.5, 38.0, 40.6, 44.5], 
'girls;m': 

[1.6, 1.51, 1.4, 1.3, 1.41, 1.39, 1.33, 1.46, 1.45, 1.43], 
"boys;kg': 

[39.0, 40.8, 43.2, 40.8, 43.1, 38.6, 41.4, 40.6, 36.3], 
‘boys;m': 

[1.38, 1.5, 1.32, 1.25, 1.37, 1.48, 1.25, 1.49, 1.46], 


if _name == '_ main _': 
main(data) 


@ 与 示例 16-13 中 的 averager 协 程 一 样 。 这 里 作为 子 生成 器 使 用 。 
Ə main 函数 中 的 客户 代码 发 送 的 各 个 值 绑 定 到 这 里 的 term 变量 上 。 


© 至 关 重 要 的 终 目 条件。 如 果 不 这 么 做 ， 使 用 yie1d from 调用 这 个 协 程 
的 生成 需 会 永远 阻塞 。 


返回 的 Result SAGA grouper WAH yield from 表达 式 的 值 。 
© grouper 是 委派 生成 器 


O 这 个 循环 每 次 送 代 时 会 新 建 一 个 averager 实例 ;每 个 实例 都 是 作为 协 
程 使 用 的 生成 器 对 象 。 


@ grouper 发 送 的 每 个 值 都 会 经 由 yield from 处 理 ， 通 过 o 
averager 实例 。grouper 会 在 yield from 表达 式 处 暂停 ， 等 人 


averager 实例 处 理 客户 端 发 来 的 值 。averager 实例 运行 完毕 后 ， 返 回 的 
值 绑 定 到 results[key] E °- while 循环 会 不 断 创 建 averager 实例 ， 处 
理 更 多 的 值 。 


© main 函数 是 客户 端 代 码 ， 用 PEP 380 定义 的 术语 来 说 ， 是 “调用 方 "。 这 
ELE] TIA EAB o 


© group 是 调用 grouper 函数 得 到 的 生成 器 对 象 ， 传 给 grouper 函数 的 
第 一 个 参数 是 results， 用 于 收集 结果 ; 第 二 个 参数 是 某 个 键 。group 作 
为 协 程 使 用 。 


© FRI group HFE ° 


® 把 各 个 value 传 给 grouper。 传 入 的 值 最 终 到 达 averager 函数 中 
term = yield 那 一 行 ，grouper 永远 不 知道 传 入 的 值 是 什么 。 


HE None 传 入 grouper， 导 致 当前 的 averager 实例 终止 ， 也 让 
grouper 继续 运行 ， 再 创建 一 个 averager 实例 ， 处 理 下 一 组 值 。 


示例 16-17 中 最 后 一 个 标号 前 面 有 个 注释 一 一 “重要 ! ”， 强 调 这 行 代码 

(group.send(None)) 至 关 重 要 : 终止 当前 的 averager 实例 ， 开 始 执 
行 下 一 个 。 如 果 注 释 掉 那 一 行 ， 这 个 脚本 不 会 输出 任何 报告 。 此 时 ， 把 
main 函数 靠近 未 尾 的 print(results) 那 行 的 注释 去 掉 ， 你 会 发 现 ， 
results 字典 是 空 的 。 


< 研究 为 何 没 有 收集 到 数据 ， 能 检验 自己 有 没有 理解 yield from 
结构 的 运作 方式 。 本 书 的 代码 仓 Oe 中 有 coroaverager3.py 脚本 的 代码 。 
原因 说 明 如 下 。 


下 面 简要 说 明示 例 16-17 的 运作 方式 ， 还 会 说 明 把 main 函数 中 调用 
group.send(None) 那 一 行 代码 ‘ae 重要 | “注释 的 那 一 ÍT) 去掉 会 发 
生 什么 事 。 


。 INE for 循环 每 次 迭代 会 新 建 一 个 grouper 实例 ， 赋 值 给 group 变 
=; group 是 委派 生成 器 


。 调 用 next(group )， 预 激 委 派生 成 器 grouper， 此 时 进入 while 
True 循环 ， 调 用 子 生成 器 averager Ja, Æ yield from 表达 式 处 


暂停 。 


。 内 层 for 循环 调用 group ,send(value)， 直 接 把 值 传 给 子 生 成 器 
averager。 同 时 ， 当 前 的 grouper 实例 (group) Æ yield from 
表达 式 处 暂停 。 


内 层 循 环 结束 后 ，group 实例 依旧 在 yield from 表达 式 处 暂停 ， 
tk, grouper 函数 定义 体 中 为 results[key] 赋值 的 语句 还 没有 执 
行 。 


如 果 外 层 for 循环 的 末尾 没有 group.send(None), 那么 averager 
子 生 成 器 永远 不 会 终止 ， 委 派生 成 器 group 永远 不 会 再 次 激活 ， 因 此 

永远 不 会 为 results[key] 赋值 。 
。 INE for 循环 重新 迭代 时 会 新 建 一 个 grouper 实例 ， 然 后 绑 定 到 


group 变量 上 。 前 一 个 grouper 实例 (以 及 它 创 建 的 尚未 终止 的 
averager 子 生 成 器 实例 ) 被 垃圾 回收 程序 回收 。 


Be 这 个 试验 想 表明 的 关键 一 点 是 ， 如 果子 生成 器 不 终止 ， 委 派生 成 
ate yield from 表达 式 处 永远 暂停 。 如 果 是 这 样 ， 程 序 不 会 向 前 

执行 ， 因 为 yield from (5 yield 一样 ) 把 控制 权 转交 给 客户 代码 
( 即 ， 委 派生 成 器 的 调用 方 ) 了。 显然 ， 肯定 有 任务 无 法 完成 。 


示例 16-17 展示 了 yield from 结构 最 简单 的 用 法 ， 只 有 一 个 委派 生成 器 和 
一 个 子 生成 器 。 因 为 委派 生成 器 相当 于 管道 ， 所 以 可 以 把 任意 数量 个 委派 生 
成 器 连接 在 一 起 : 一 个 委派 生成 器 使 用 yie1d from 调用 一 个 子 生成 器 ， 
而 那个 子 生成 器 本 身 也 是 委派 生成 器 ， 使 用 yield from 调用 另 一 个 子 生 
成 器 ， 以 此 类 推 。 最 终 ， 这 个 链条 要 以 一 个 只 使 用 yield 表达 式 的 简单 生 
成 器 结束 ; 不 过 ， 也 能 以 任何 可 迭代 的 对 象 结束 ， 如 示例 16-16 所 示 。 
任何 yield from 链条 都 必须 由 客户 驱动 ， 在 最 外 层 委派 生成 器 上 调用 
next(...) KEX .send(...) 方法 。 可 以 隐 式 调用 ， 例 如 使 用 for 循 
7 


下 面 综述 PEP 380 对 yield from 结构 的 正式 说 明 。 


16.8 yield from 的 意义 


制定 PEP 380 时 ， 有 人 质疑 作者 Greg Ewing 提议 的 语义 过 于 复杂 了 。 他 的 回 
应 之 一 是 : “对 人 类 来 说 ， 几 乎 所 有 最 重要 的 信息 都 在 靠近 顶部 的 某 个 段落 
里 。” 他 还 引述 了 PEP 380 草稿 中 的 一 段 话 ， 当 时 那 段 话 是 这 样 的 ; 


“把 迭代 器 当 作 生成 器 使 用 ， 相 当 于 把 子 生成 器 的 定义 体内 联 在 yield 
From 表达 式 中 。 此 外 ， 子 生成 絮 可 以 执行 return 语句 ， 返 回 一 个 
值 ， 而 返回 的 值 会 成 为 yield from 表达 式 的 值 。”8 


8 摘自 Python-Dev 邮件 列表 中 的 一 个 消息 : “PEP 380 (yield from a subgenerator) comments” (发布 于 
2009 #34 21H) œ 


PEP 380 中 已 经 没有 这 上 段 宽慰 人 心 的 话 ， 因 为 没有 涵盖 所 有 极端 情况 。 不 
过 ， 一 开始 可 以 这 样 粗略 地 说 。 


批准 后 的 PEP 380 在 “Proposal” 一 市 分 六 点 说 明了 yield from 的 行为 。 这 
里 ， 我 几乎 原封 不 动 地 引述 ， 不 过 把 有 歧义 的 “ 撑 代 器 ”一 词 都 换 成 了 “ 子 生成 
釉 ”， 还 做 了 进一步 说 明 。 示 例 16-17 阐明 了 下 壕 四 点 。 


。 子 生成 器 产 出 的 值 都 直接 传 给 委派 生成 器 的 调用 方 〈《 即 客户 端 代 码 ) 。 


。 使 用 send( ) 方法 发 给 委派 生成 器 的 值 都 直接 传 给 子 生 成 器 。 如 果 发 送 

的 值 是 None， 那 么 会 调用 子 生 成 器 的 __next__( ) 方法 。 如 果 发 送 的 
值 不 是 None， 那 么 会 调用 子 生 成 器 的 send( ) 方法 。 如 果 调 用 的 方法 
抛 出 StopIteration 异常 ， 那 么 委派 生成 器 恢复 运行 。 任 何其 他 异常 
都 会 同上 冒 泡 ， 传 给 委派 生成 怖 。 


。 生成 器 退出 时 ， 生 成 器 (或 子 生成 器 ) 中 的 return expr 表达 式 会 触 
发 StopIteration(expr) 异常 抛 出 。 


e yield from 表达 式 的 值 是 子 生成 怖 终止 时 传 给 StopIteration = 
常 的 第 一 个 参数 。 


yield from 结构 的 另外 两 个 特性 与 异常 和 终止 有 关 。 


。 传 入 委派 生成 器 的 异常 ， 除 了 GeneratorExit 之 外 都 传 给 子 生 成 器 的 
throw() 方法 。 如 果 调 用 throw( ) 方法 时 抛 出 StopIteration = 
常 ， 委 派生 成 器 恢复 运行 。StopIteration 之 外 的 异常 会 向 上 冒 泡 ， 
传 给 委派 生成 器 。 


。 如 果 把 GeneratorExit 异常 传 入 委派 生成 器 ， 或 者 在 委派 生成 器 上 调 
用 close() 方法 ， 那 么 在 子 生成 右上 调用 close( ) NË, WRES 
的 话 。 如 果 调 用 close( ) 方法 导致 异常 殷 出 ， 那 么 异常 会 向 上 冒 泡 ， 
传 给 委派 生成 器 ， 否 则 ， 委 派生 成 器 抛 出 GeneratorExit 异常 。 


yield from 的 具体 语义 很 难 理解 ， 尤 其 是 处 理 异常 的 那 两 点 。Greg Ewing 
做 得 很 好 ， 在 PEP 380 中 使 用 英语 阐述 了 了 yield fronm 的 语义 。 


Ewing 还 使 用 伪 代 码 (使 用 Python 句法 ) 演示 了 yield from 的 行为 。 我 
个 人 认为 值得 花 时 间 研 究 PEP 380 中 的 伪 代 码 。 不 过 ， 那 段 伪 代码 长 达 40 
行 ， 看 一 遍 很 难 理解 。 


i RABBIS, BPC, Hik yield from 最 基本 且 最 常 
见 的 用 法 。 


假设 yield from 出 现在 委派 生成 器 中 。 客 户 端 代码 驱动 着 委派 生成 器 ， 
而 委派 生成 器 驱动 着 子 生成 器 。 那 么 ， 为 了 简化 涉及 到 的 逻辑 ， 我 们 假设 窜 
户 端 没有 在 委派 生成 器 上 调用 .throw(...) 或 ,close() 方法 。 此 外 ， 
我 们 还 假设 子 生成 器 不 会 抛 出 异常 ， 而 是 一 直 运 行 到 终止 ， 让 解释 器 抛 出 
StopIteration 异常 。 


示例 16-17 中 的 脚本 就 做 了 这 些 简 化 逻辑 的 假设 。 其实， 在 真实 的 代码 中 ， 
委派 生成 器 应 该 运行 到 结束 。 下 面 来 看 一 下 在 这 个 简化 的 美满 世界 中 ， 
yield from 是 如 何 运 作 的 。 


ha 16-18， 那 里 列 出 的 代码 是 委派 生 成 器 的 定义 体 中 下 面 这 一 行 代码 


RESULT = yield from EXPR 


自己 试 着 理解 示例 16-18 中 的 逻辑 。 


示例 16-18 ”简化 的 伪 人 代码， 等 效 于 委派 生成 器 中 的 RESULT = yield 
from EXPR 语句 (这 里 针对 的 是 最 简单 的 情况 ， 不 支持 
.throw(...) 和 .close() 方 法， 而 且 只 处 理 StopIteration 异 


P 


rf 


_i = iter(EXPR) @ 
try: 

_y = next(_i) @ 
except StopIteration as _e: 


r= _e.value © 
else: 
while 1: @ 
_s = yield y © 
try: 


_y = _i.send(_s) © 


except StopIteration as _e: © 
_r = _e.value 
break 


RESULT = r ® 


@ EXPR 可 以 是 任何 可 迭代 的 对 象 ， 因 为 获取 和 迭代 器 _i (这 是 子 生成 器 ) 使 


用 的 是 iter() HŽ ° 
© 预 激 子 生成 器 ， 结 果 保 存在 _y 中 ， 作 为 产 出 的 第 一 个 值 。 


© 如 果 抛 出 StopIteration 异常 ， 获 取 异 常 对 象 的 value 属性 ， 赋 值 给 
_r 一 一 这 是 最 简单 情况 下 的 返回 值 (RESULT) 。 


运行 这 个 循环 时 ， 委 派生 成 器 会 阻塞 ， 只 作为 调用 方 和 子 生成 器 之 间 的 通 


O 产 出 子 生成 器 当前 产 出 的 元 素 ; 等 待 调用 方 发送 _s 中 保存 的 值 。 注 意 ， 
这 个 代码 清单 中 只 有 这 一 个 yield 表达 式 。 


O 尝试 让 子 生 成 器 癌 前 执行 ， 转 发 调用 方 发 送 的 _s。 


@ 如 果子 生成 句 抛 出 StopIteration 异常 ， 获 取 value 属性 的 值 ， 赋 值 
给 _r， 然 后 退出 循环 ， 让 委派 生 成 器 恢复 运行 。 


@ 返回 的 结果 (RESULT) 是 _r， 即 整个 yield from 表达 式 的 值 。 
在 这 段 简化 的 伪 代 码 中 ， 我 保留 了 PEP 380 中 那 段 伪 代码 使 用 的 变量 名 称 。 


这 些 变 量 是 : 
_i (GARAS) 
TERA 
_y 〈 产 出 的 值 ) 
子 生成 句 产 出 的 值 
_r (结果 ， 


最 终 的 结果 ( 即 子 生成 器 运行 结束 后 yield from 表达 式 的 值 ) 


_s (发 送 的 值 ) 
调用 方 发 给 委派 生成 器 的 值 ， 这 个 值 会 转发 给 子 生 成 器 
_e (异常 ) 
异常 对 象 〈 在 这 段 简 化 的 伪 代 码 中 始终 是 StopIteration 实例 ) 


除了 没有 处 理 ,throw(,..) 和 ,close( ) 方法 之 外 ， 这 段 简 化 的 伪 代 码 
还 在 子 生成 器 上 调用 .send( . .. ) 方法 ， 以 此 达到 客户 调用 next() HRY 
或 .send(...) 方法 的 目的 。 首 次 阅读 时 不 要 担心 这 些 细微 的 差别 。 前 面 
说 过 ， 即 使 yield from 结构 只 做 示例 16-18 中 展示 的 事情 ， 示 例 16-17 也 
依旧 能 正常 运行 。 


但 是 ， 现 实情 况 要 复杂 一 些 ， 因 为 要 处 理 客户 对 .throw(...) 和 
.Close( ) 方法 的 调用 ， 而 这 两 个 方法 执行 的 操作 必须 传 入 子 生 成 器 。 此 
外 ， 子 生成 器 可 能 只 是 纯粹 的 迭代 器 ， 不 支持 .throw(...) 和 .close() 
方法 ， 因 此 yield from 结构 的 逻辑 必须 处 理 这 种 情况 。 如 果子 生成 器 实 
现 了 这 两 个 方法 ， 而 在 子 生 成 器 内 部 ， 这 两 个 方法 都 会 触发 异常 括 出 ， 这 种 
情况 也 必须 由 yield from 机 制 处 理 。 调 用 方 可 能 会 无 缘 无 故地 让 子 生成 
器 自己 抛 出 异常 ， 实 现 yie1d from 结构 时 也 必须 处 理 这 种 情况 。 最 后 ， 
为 了 优化 ， 如 果 调 用 方 调用 next(...) 函数 或 ,send(None ) 方法 ， 都 要 
转交 职责 ， 在 子 生 成 器 上 调用 next(...) 画 数 ; 仅 当 调 用 方 发 送 的 值 不 是 
None 时 ， 才 使 用 子 生 成 器 的 .send(...) 方法 。 

为 了 方便 对 比 ， 下 面 列 出 PEP 380 中 扩充 yield from 表达 式 的 完整 伪 代 
码 ， 而 且 加 上 了 带 标 号 的 注解 。 示 例 16-19 中 的 代码 是 一 字 不 差 复制 过 来 
的 ， 只 有 标注 是 我 自己 加 的 。 


ea 示例 16-19 中 的 代码 是 委派 生成 器 的 定义 体 中 下 面 这 一 个 语句 的 


RESULT = yield from EXPR 


示例 16-19 ” 伪 代 码 ， 等 效 于 委派 生成 器 中 的 RESULT = yield from 
EXPR 语句 


_i = iter(EXPR) @ 
try: 

_y = next(_i) @ 
except StopIteration as _e: 


r = _e.value © 
else: 
while 1: @ 
try: 
_s = yield _y © 
except GeneratorExit as _e: © 


try: 
_m = _i.close 
except AttributeError: 
pass 
else: 
o m() 
raise _e 


except BaseException as _e: © 
_x = sys.exc_info() 
try: 
_m = _i.throw 
except AttributeError: 
raise _e 
else: ® 
try: 
-y = _m( XI) 
except StopIteration as _e: 
r = _e.value 


if _s is None: @ 
_y = next(_i) 
else: 
_y = _i.send(_s) 
except StopIteration as e: @ 
_r = _e.value 
break 


@ EXPR 可 以 是 任何 可 和 迭代 的 对 象 ， 因 为 获取 迭代 器 _i (这 是 子 生成 器 ) 使 


用 的 是 iter() HŽ ° 
@ 预 激 子 生成 器 ; 结果 保存 在 _y 中 ， 作 为 产 出 的 第 一 个 值 。 


© 如 果 抛 出 StopIteration 异常 ， 获 取 异 常 对 象 的 value 属性 ， 赋 值 给 
_r 一 一 这 是 最 简单 情况 下 的 EE (RESULT) 。 


运行 这 个 循环 时 ， 委 派生 成 器 会 阻塞 ， 只 作为 调用 方 和 子 生成 器 之 间 的 通 


O 产 出 子 生成 器 当前 产 出 的 元 素 ; 等 待 调用 方 发 送 _s 中 保存 的 值 。 这 个 代 
码 清单 中 只 有 这 一 个 yield KIAR ° 


O 这 一 部 分 用 于 关闭 委派 生成 咒 和 子 生成 器 。 因 为 子 生 成 器 可 以 是 任何 可 和 迭 
代 的 对 象 ， 所 以 可 能 没有 Close 方法 。 


© 这 一 部 分 处 理 调用 方 通过 ,throw( . ,, ) 方法 传 入 的 异常 。 同 样 ， 子 生成 
器 可 以 是 迭代 器 ， 从 而 没有 throw 方法 可 调用 一“ 这 种 情况 会 导致 委派 生 
成 器 抛 出 异常 。 


@ 如 果子 生成 器 有 throw 方法 ， 调 用 它 并 传 入 调用 方 发 来 的 异常 。 子 生成 

器 可 能 会 处 理 传 入 的 异常 (然后 继续 循环 ) ; 可 能 抛 出 StopIteration = 
常 〈( 从 中 获取 结果 ， 赋 值 给 _r， 循 环 结束 ) ; 还 可 能 不 处 理 ， 而 是 抛 出 相 

同 的 或 不 同 的 异常 ， 向 上 冒 泡 ， 传 给 委派 生成 器 。 


© 如 果 产 出 值 时 没有 异常 .…… 

四 Bk TE Mas ABUT... 

O 如 条 调用 方 最 后 发 送 的 值 是 None， 在 子 生 成 器 上 调用 next KË A 
调用 send 方法 。 


O 如 采 子 生成 器 抛 出 StopIteration 异常 ， 获 取 value BERE, WE 
给 _r， 然 后 退出 循环 ， 让 委派 生 成 器 恢复 运行 。 


@ 返回 的 结果 (RESULT) 是 _r， 即 整个 yield from 表达 式 的 值 。 


这 段 yield from 伪 代 人 码 的 大 多 数 逻 辑 通过 六 个 try/except 块 实现 ， 而 
且 秽 套 了 四 层 ， 因 此 有 点 难以 阅读 。 此 外 ， 用 到 的 其 他 流程 控制 关键 字 有 一 
个 while、 一 个 if 和 一 个 yield。 找 到 while 循环 、 yield 表达 式 以 及 
next(...) KAA .send(...) 方法 调用 ， 这 些 代码 有 助 于 对 yield 
From 结构 的 运作 方式 有 个 整体 的 了 解 。 


就 在 示例 16-19 所 列 伪 代 码 的 顶部 ， 有 行 代 码 (标号 @) 揭示 了 一 个 重要 的 
细节 : 要 预 激 子 生 成 器 。3? 这 表明 ， 用 于 自动 预 激 的 装饰 器 (如 16.4 节 定义 
的 那个 ) 5 yield from 结构 不 兼容 。 


?Nick Coghlan 于 2009 年 4 月 5 日 在 Python-ideas 邮件 列表 中 发 布 的 一 个 消息 中 质疑 yield from 
结构 隐 式 预 激 是 不 是 好 主意 。 


在 本 节 开 头 引 用 的 那个 消息 中 ， 关 于 扩充 yield from 结构 的 伪 代 码 ， 
Greg Ewing 说 : 


我 不 是 让 你 通过 扩充 的 伪 代 码 学 习 这 个 结构 ， 那 段 伪 代码 是 为 了 让 语言 
FKF AAT ° 


仔细 研究 扩充 的 伪 代 码 可 能 没什么 用 一 一 这 与 你 的 学 习 方 式 有 关 。 显 然 ， 分 
析 真 正 使 用 yield from 结构 的 代码 要 比 深入 研究 实现 这 一 结构 的 伪 代 码 
更 有 好 处 。 不 过 ， 我 见 过 的 yield from 示例 几乎 都 使 用 asyncio 模块 做 
异步 编程 ， 因 此 要 有 有 效 的 事件 循环 才能 运行 。 第 18 章 会 多 次 用 到 yield 
From 结构 。16.11 闻 中 有 几 个 链接 ， 指 向 使 用 yield from 结构 的 一 些 有 
趣 代码 ， 而 且 无 需 事件 循环 。 


下 面 分 析 一 个 使 用 协 程 的 经 典 案例 : 仿真 编程 。 这 个 案例 没有 展示 yield 
From 结构 的 用 法 ， 但 是 揭示 了 如 何 使 用 协 程 在 单个 线程 中 管理 并 发 活动 。 


16.9 ”使 用 案例 :使 用 协 程 做 离散 事件 仿真 


协 程 能 自然 地 表述 很 多 算法 ， 例 如 仿真 、 游 戏 、 异 步 JO， 以 及 其 他 事 
件 驱动 型 编程 形式 或 协作 式 多 任务 。1 


Guido van Rossum 和 Phillip J. Eby 
PEP 342—Coroutines via Enhanced Generators 


10PEP 342 中 “Motivation" 一 节 开 头 的 第 一 句 话 。 


本 市 我 会 说 明 如 何 只 使 用 协 程 和 标准 库 中 的 对 象 实现 一 个 特别 简单 的 仿真 系 
统 。 在 计算 机 科学 领域 ,仿真 是 协 程 的 经 典 应 用 。 第 一 门面 向 对 象 的 语言 
Simula 引入 了 协 程 这 个 概念 ， 目 的 就 是 为 了 文 持 仿真 。 


` 下 述 仿 真 示 例 不 是 为 了 做 学 术 人 研究 。 协 程 是 asyncio 包 的 基础 构 
建 。 通 过 仿真 系统 能 说 明 如 何 使 用 协 程 代 替 线 程 实现 并 发 的 活动 ， 而 且 
对 理解 第 18 章 讨论 的 asyncio 包 有 极 大 的 帮助 。 

分 析 示 例 之 前 ， 先 简单 介绍 一 下 仿真 。 


16.9.1 ”离散 事件 仿真 简介 


离散 事件 仿真 (Discrete Event Simulation，DES) 是 一 种 把 系统 建 模 成 一 系 
列 事件 的 仿真 类 型 。 在 离散 事件 仿真 中 ， 念 真 “ 钟 * 向 前 推进 的 量 不 是 固定 

的 ， 而 是 直接 推进 到 下 一 个 事件 模型 的 模拟 上 时间。 假如 我 们 抽象 模拟 出 租车 
的 运营 过 程 ， 其 中 一 个 事件 是 乘客 上 车 ， 下 一 个 事件 则 是 乘客 下 车 。 不 管 乘 
客 坐 了 5 分 钟 还 是 50 分 钟 ， 一 旦 乘客 下 车 ,仿真 钟 就 会 更 新 ， 指 问 此 次 运 
营 的 结束 时 间 。 使 用 离散 事件 仿真 可 以 在 不 到 一 秒 钟 的 时 间 内 模拟 一 年 的 出 
租车 运营 过 程 。 这 与 连续 仿真 不 同 ， 连 续 仿 真 的 仿真 钟 以 固定 的 量 (通常 很 
小 ) 不 断 问 前 推进 。 


显然 ， 回 合 制 游戏 就 是 离散 事件 仿真 的 例子 ， 游 戏 的 状态 只 在 玩家 操作 时 变 
化 ， 而 且 一 旦 玩家 决定 下 一 步 怎 么 走 了 ， 念 真 钟 训 会 冻结 。 而 实时 游戏 则 是 
连续 仿真 ， 仿 真 钟 一 直 在 运行 ， 游 戏 的 状态 在 一 秒 钟 之 内 更 新 很 多 次 ， 因 此 
反应 慢 的 玩家 特别 吃亏 。 


这 两 种 仿真 类 型 都 能 使 用 多 线程 或 在 单个 线程 中 使 用 面向 事件 的 编程 技术 
(例如 事件 循环 驱动 的 回调 或 协 程 ， 实 现 。 可 以 说 ， 为 了 实现 连续 仿真 ， 在 
多 个 线程 中 处 理 实时 并 行 的 操作 更 自然 。 而 协 程 恰好 为 实现 离散 事件 仿真 提 
供 了 合理 的 抽象 。SimPy™ 是 一 个 实现 离散 事件 仿真 的 Python 包 ， 通 过 一 个 
协 程 表示 离散 事件 仿真 系统 中 的 各 个 进程 。 


1 参见 SimPy 的 官方 文档 。 不 要 和 著名 的 SymPy 混淆 了 。SymPy 是 一 个 符号 数学 库 ， 与 DES 无 关 。 


A 在 仿真 领域 ， 进 程 这 个 术语 指 代 模 型 中 某 个 实体 的 活动 ， 与 操作 
系统 中 的 进程 无 关 。 仿 真 系统 中 的 一 个 进程 可 以 使 用 操作 系统 中 的 一 个 
进程 实现 ， 但 是 通常 会 使 用 一 个 线程 或 一 个 协 程 实现 。 


如 果 对 仿真 感 兴趣 ， 值 得 研究 一 下 SimPy。 不 过 ， 在 这 一 节 我 会 说 明 如 何 只 
使 用 标准 库 提供 的 功能 实现 一 个 特别 简单 的 离散 事件 仿真 系统 。 我 的 目的 是 
增进 你 对 使 用 协 程 管理 并 发 操作 的 感性 认 知 。 辱 想 理解 下 一 节 所 讲 的 内 容 ， 
要 仔细 人 研究， 不 过 这 一 付出 能 得 到 很 大 回报 ， 让 我 们 洞悉 asyncio、 
Twisted 和 Tornado 等 库 是 如 何在 单个 线程 中 管理 多 个 并 发 活动 的 。 


16.9.2 ”出 租车 队 运 营 仿真 

仿真 程序 taxi_sim.py 会 创建 儿 辆 出 租车 ， 每 辆 车 会 拉 几 个 乘客 ， 然 后 回 家 。 
出 租车 首先 驶 离 车 库 ， 四 处 徘徊 ， 寻 找 乘客 ， 拉 到 乘客 后 ， 行 程 开 始 ;， 乘客 
下 车 后 ， 继 续 四 处 徘徊 。 


四 处 徘徊 和 行程 所 用 的 时 间 使 用 指数 分 布 生成 。 为 了 让 显示 的 信息 更 加 整 
清 ， 时 间 使 用 取 整 的 分 钟 数 ， 不 过 这 个 仿真 程序 也 能 使 用 浮 点 数 表 示 耗 时 。 


= as 出 租车 每 次 的 状态 变化 都 是 一 个 事件 。 图 16-3 是 运行 这 个 程序 的 输出 
示例 。 


并 我 不 是 运营 出 租车 队 的 行家 ， 因 此 别 太 在 意 显 示 的 时 间 。 离 散 事件 仿真 经 常 使 用 指数 分 布 。 你 会 看 
到 一 些 非常 短 的 行程 ， 你 就 假设 那 是 一 个 雨天 ， 一 些 乘客 坐 出 租车 只 走 了 一 个 街区 。 在 理想 的 城市 
中 ， 即 使 下 雨 也 有 出 租车 。 


$ python3 taxi_sim.py -s 3 
taxi: © Event(time=0, proc=0, action='Leave garage') 


taxi: 9 Event(time=2, proc=0, action='pick up passenger’) 

taxi: 1 Event(time=5, proc=1, action='Leave garage') 

taxi: Event(time=8, proc=1, action='pick up passenger') 
taxi: Event(time=10, proc=2, action='leave garage') 
taxi: Event(time=15, proc=2, action='pick up passenger') 


Event(time=17, proc=2, action='drop off passenger ') 2 


1 

2 

2 
taxi: 2 
taxi: 0 Event(time=18, proc=0, action='drop off passenger') 
taxi: 2 Event(time=18, proc=2, action='pick up passenger') 
taxi: 2 Event(time=25, proc=2, action='drop off passenger ') 2 
taxi: 1 Event(time=27, proc=1, action='drop off passenger') 
taxi: 2 Event(time=27, proc=2, action='pick up passenger') 
taxi: 9 Event(time=28, proc=0, action='pick up passenger' ) 
taxi: 2 Event(time=40, proc=2, action='drop off passenger') 
taxi: 2 Event(time=44, proc=2, action='pick up passenger’ ) 
taxi: 1 Event(time=55, proc=1, action='pick up passenger’) > 
taxi: 1 Event(time=59, proc=1, action='drop off passenger') 
taxi: 9 Event(time=65, proc=0, action='drop off passenger') 
taxi: 1 Event(time=65, proc=1, action='pick up passenger’) 
taxi: 2 Event(time=65, proc=2, action='drop off passenger') 
taxi: 2 Event(time=72, proc=2, action='pick up passenger ') 
taxi: 0 Event(time=76, proc=0, action='going home') 
taxi: 1 Event(time=80, proc=i, action='drop off passenger') 
taxi: 1 Event(time=88, proc=1, action='pick up passenger') 
taxi: 2 Event(time=95, proc=2, action='drop off passenger') 
taxi: 2 Event(time=97, proc=2, action='pick up passenger') 了 
taxi: 2 Event(time=98, proc=2, action='drop off passenger') 
taxi: 1 Event(time=106, proc=1, action='drop off passenger') 
taxi: 2 Event(time=109, proc=2, action='going home') — r 


taxi: 1 Event(time=110, proc=1, action='going home') 
*** end of events *** 


16-3: 运行 taxi_sim.py 创建 3 辆 出 租车 的 输出 示例 。-s 3 参数 设置 随机 
数 生 成 器 的 种 子 ， 这 样 在 调试 和 演示 时 可 以 重复 运行 程序 ， 输 出 相同 的 结 
果 。 不 同 颜色 的 箭头 表示 不 同 出 租车 的 行程 了 


= 


R] 


16-3 的 彩色 图 片 可 从 本 书页 面 的 “ 随 书 下 载 " 部 分 获取 。 编者 注 


16-3 中 最 值得 注意 的 一 件 事 是 ，3 辆 出 租车 的 行程 是 交叉 进行 的 。 那 些 科 
头 是 我 加 上 的 ， 为 的 是 让 你 看 清 各 辆 出 租车 的 行程 : 箭头 从 乘客 上 车 时 开 
台 ， 到 乘客 下 车 后 结束 。 有 了 箭头 ， 能 直观 地 看 出 如 何 使 用 协 程 管 理 并 发 的 


y = 
~ 


活动 。 
16-3 中 还 有 几 件 事 值得 注意 。 
。 出 租车 每 隔 5 分 钟 从 车 库 中 出 发 。 


。0 号 出 租车 2 分 钟 后 拉 到 乘客 (time=2) , 1 号 出 租车 3 分 钟 后 拉 到 乘 
客 (time=8) ，2 号 出 租车 5 分 钟 后 拉 到 乘客 (time=15) 。 


。0 号 出 租车 拉 了 两 个 乘客 (紫色 箭头 ) : 第 一 个 乘客 从 time=2 时 上 
车 ， 到 time=18 时 下 车 ; 第 二 个 乘客 从 time=28 时 上 和 车， 到 
time=65 时 下 车 一 一 这 是 此 次 仿真 中 最 长 的 行程 。 

。1 号 出 租车 拉 了 四 个 乘客 〈 绿 色 箭 头 ) ， 在 time=110 时 间 


家 [0] 
。 2 号 出 租车 拉 了 六 个 乘客 CETA) , Æ time=109 时 回 家 。 这 辆 车 
最 后 一 次 行程 从 time=97 时 开始 ， 只 持续 了 一 分 钟 。14 


。 工 号 出 租车 的 第 一 次 行程 从 time=8 时 开始 ， 在 这 个 过 程 中 2 号 出 租车 
(time=10) ， 而 且 完 成 了 两 次 行程 〈 那 两 个 短 的 红色 箭 


。 在 此 次 运行 示例 中 ， 所 有 排 定 的 事件 都 在 默认 的 仿真 时 间 内 (180 分 
钟 ) 完成 ; 最 后 一 次 事件 发 生 在 time=110 时 。 


1 乘客 是 我 ， 我 发 现 忘 了 带 钱包 。 


仿真 结束 时 可 能 还 有 未 完成 的 事件 。 如 果 是 这 种 情况 ， 最 后 一 条 消息 会 是 下 
面 这 样 


** end of simulation time: 3 events pending *** 


taxi_sim.py 脚本 的 完整 代码 在 示例 A-6 中 ， 本 章 只 会 列 出 与 协 程 相关 的 部 
分 。 真 正 重要 的 函数 只 有 两 个 : taxi_process (一 个 协 程 ) ， 以 及 执行 仿 
真主 循环 的 SimulLator .run 方法。 


示例 16-20 是 taxi_process 函数 的 代码 。 这 个 协 程 用 到 了 别处 定义 的 两 
个 对 象 compute_delay 函数 ， 返 回 单位 为 分 钟 的 时 间 间 隔 ; Event 类 ， 
一 个 namedtuple， 定 义 方式 如 下 : 


Event = collections.namedtuple('Event', 'time proc action') 


在 Event 实例 中 ，time 字段 是 事件 发 生 时 的 仿真 时 间 ，proc 字段 是 出 租 
车 进程 实例 的 编号 ，action 字段 是 描述 活动 的 字符 串 。 


下 面 逐 行 分 析 示 例 16-20 中 的 taxi_process 函数 。 


示例 16-20 taxi_sim.py: taxi_process 协 程 ， 实 现 各 辆 出 租车 的 活 
动 


def taxi process(ident, trips, start time=0): @ 
""" 每 次 改变 状态 时 创建 事件 ， 把 控制 权 让 给 仿真 器 """ 
time = yield Event(start_time, ident, 'leave garage') @ 
for i in range(trips): © 
time = yield Event(time, ident, 'pick up passenger') @ 
time = yield Event(time, ident, 'drop off passenger') © 


yield Event(time, ident, 'going home') © 
# 出 租车 进程 结束 @ 


@ 每 辆 出 租车 调用 一 次 taxi_process 函数 ， 创 建 一 个 生成 器 对 象 ， 表 示 


各 辆 出 租车 的 运营 过 程 。ident 是 出 租车 的 编号 (如 上 述 运行 示例 中 的 0、 
1、2) ; trips 是 出 租车 回 家 之 前 的 行程 数量 ，start_time 是 出 租车 离 
开车 库 的 时 间 。 


Ə 产 出 的 第 一 个 Event Æ 'leave garage'。 执 行 到 这 一 行 时 ， 协 程 会 暂 
停 ， 让 仿真 主 循环 着 手 处 理 排 定 的 下 一 个 事件 。 需 要 重新 激活 这 个 进程 时 ， 
主 循 环 会 发 送 (使 用 send 方法 ) 当前 的 仿真 时 间 ， 赋 值 给 time 。 

© 每 次 行程 都 会 执行 一 遍 这 个 代码 块 。 


@ 广 出 一 个 Event 实例 ， 表 示 拉 到 乘客 了 。 协 程 在 这 里 和 暂停。 需要 重新 激 
活 这 个 协 程 时 ， 主 循环 会 发 送 (使 用 send 方法 ) 当前 的 时 间 。 


O 广 出 一 个 Event 实例 ， 表 示 乘 客 下 车 了 。 协 程 在 这 里 和 暂停， 等待 主 循环 
发 送 时 间 ， 然 后 重新 激活 。 


O 指定 的 行程 数量 完成 后 ，for 循环 结束 ， 最 后 产 出 'going home ' 事 
件 。 此 时 ， 协 程 最 后 一 次 暂停 。 仿 真主 循环 发 送 时 间 后 ， 协 程 重新 激活 ; 不 
过 ， 这 里 没有 把 产 出 的 值 赋值 给 变量 ， 因 为 用 不 到 了 。 


O 协 程 执行 到 最 后 时 ， 生 成 器 对 象 扫 出 StopIteration 异常 。 


你 可 以 在 Python 控制 台中 调用 taxi_process WA, Boca” (drive) 
一 辆 出 租车 已 ， 如 示例 16-21 所 示 。 
3 描述 协 程 的 操作 时 经 常 使 用 “drive” 这 个 动词 ， 例 如 : 客户 代码 把 人 发 给 协 程 ， 驱动 协 程 。 在 示例 


16-21 中 ， 客 户 代码 是 你 在 控制 台中 输入 的 代码 。 (drive 一 词 有 不 同 的 含义 ， 因 此 在 不 同 的 语 境 
有 不 同 的 译 法 ， 例 如 这 个 脚注 所 在 的 那 句 话 中 译 为 “ 萄 驶 ”。 译 者 注 


示例 16-21 驱动 taxi_process 协 程 


>>> from taxi_sim import taxi_process 
>>> taxi = taxi_process(ident=13, trips=2, start_time=0) @ 
>>> next(taxi) @ 
Event(time=0, proc=13, action='leave garage' ) 
>>> taxi.send(_.time + 7) © 
Event(time=7, proc=13, action='pick up passenger') @ 
>>> taxi.send(_.time + 23) © 
Event(time=30, proc=13, action='drop off passenger ' ) 
>>> taxi.send(_.time + 5) © 
Event(time=35, proc=13, action='pick up passenger' ) 
>>> taxi.send(_.time + 48) @ 
Event(time=83, proc=13, action='drop off passenger' ) 
>>> taxi.send(_.time + 1) 
Event(time=84, proc=13, action='going home') ® 
>>> taxi.send(_.time + 10) © 
Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
StopIteration 


@ 创建 一 个 生成 器 对 象 ， 表 示 一 辆 出 租车 。 这 辆 出 租车 的 编号 是 13 
(ident=13) ， 从 t=0 时 开始 工作 ， 有 两 次 行程 。 


@ 预 激 协 程 ， 产 出 第 一 个 事件 。 


© 现在 可 以 发 送 当 前 时 间 。 在 控制 台中 ，_ 变量 绑 定 的 是 前 一 个 结果 ; 这 里 
我 在 时 间 上 加 7， 意 思 是 这 辆 出 租车 7 分 钟 后 找到 第 一 个 乘客 。 


O 这 个 事件 由 for 循环 在 第 一 个 行程 的 开头 产 出 。 
© 发 送 _ ,time + 23， 表 示 第 一 个 乘客 的 行程 持续 了 23 分 钟 。 


@ 然后 ， 这 辆 出 租车 会 徘徊 5 分 钟 。 
@ 最 后 一 次 行程 持续 48 分 钟 。 
O 两 次 行程 完成 后 ，for 循环 结束 ， 产 出 'going home! 事件 。 


O 如 果 党 试 再 把 值 发 给 协 程 ， 会 执行 到 协 程 的 末尾 。 协 程 返回 后 ， 解 释 器 会 
抛 出 StopIteration 异常 。 


注意 ， 在 示例 16-21 中 ， 我 使 用 控制 台 模拟 仿真 主 循环 。 我 从 taxi 协 程 产 
出 的 Event 实例 中 获取 .time 属性 ， 随 意 与 一 个 数 相 加 ， 然 后 调用 
taxi.send 方法 发 送 两 数 之 和 ， 重 新 激活 协 程 。 在 这 个 仿真 系统 中 ， 各 个 
出 租车 协 程 由 Simulator ,run 方法 中 的 主 循环 驱动 。 仿 真 “ 钟 ”保存 在 
sim_time 变量 中 ， 每 次 产 出 事件 时 都 会 更 新 仿真 钟 。 


为 了 实例 化 Simulator 类 ，taxi_sim.py 脚本 的 main 函数 构建 了 一 
taxis 字典 ， 如 下 所 示 : 


taxis = {i: taxi_process(i, (i +1) * 2, i * DEPARTURE_INTERVAL) 
for i in range(num_taxis) } 


sim = Simulator(taxis) 


DEPARTURE_INTERVAL 的 值 是 5， 如 果 num_taxis 的 值 与 前 面 的 运行 示 


例 一 样 也 是 3， 这 三 行 代码 的 作用 与 下 述 代 码 一 样 : 


taxis = {0: taxi_process(ident=0, trips=2, start_time=0), 
1: taxi_process(ident=1, trips=4, start_time=5), 
2: taxi_process(ident=2, trips=6, start_time=10)} 


sim = Simulator(taxis) 


Alt, taxis 字典 的 值 是 三 个 参数 不 同 的 生成 器 对 象 。 例 如 ，1 号 出 租车 从 
oe _time=5 时 开始 ， 寻 找 四 个 乘客 。 构 建 Simulator 实例 只 需 这 个 
字典 参数 。 


Simulator. init__ 方法 如 示例 16-22 所 示 。Simulator 类 的 主要 数据 结 
构 如 下 。 


self.events 


PriorityQueue 对 象 ， 保 存 Event 实例 。 元 素 可 以 放 进 (使 用 put 
方法 ) PriorityQueue 对 象 中 ， 然 后 按 Item[9] (BH Event 对 象 的 
time 属性 ) 依 序 取出 (使 用 get 方法 ) 。 


self.procs 


一 个 字典 ， 把 出 租车 的 编号 映射 到 仿真 过 程 中 激活 的 进程 (表示 出 租车 
的 生成 器 对 象 ) 。 这 个 属性 会 绑 定 前 面 所 示 的 taxis 字典 副本 。 


示例 16-22 taxi_sim.py: Simulator 类 的 初始 化 方法 


class Simulator: 


def _ init__(self, procs_map): 
self.events = queue.PriorityQueue() @ 


self.procs = dict(procs_map) @ 


O 保存 排 定 事件 的 PriorityQueue 对 象 ， 按 时 间 正 向 排序 。 


@ 获取 的 procs_map 参数 是 一 个 字典 〈 或 其 他 映射 ) ， 可 是 又 从 中 构建 一 
个 字典 ， 创 建 本 地 副本 ， 因 为 在 仿真 过 程 中 ， 出 租车 回 家 后 会 从 
self.procs 属性 中 移 除 ， 而 我 们 不 想 修改 用 户 传 入 的 对 象 。 


优先 队列 是 离散 事件 仿真 系统 的 基础 构件 : 创建 事件 的 顺序 不 定 ， 放 入 这 种 
队列 之 后 ， 可 以 按照 各 个 事件 排 定 的 时 间 顺 序 取出 。 例 如 ， 可 能 会 把 下 面 两 
个 事件 放 入 优先 队列 : 


Event(time=14, proc=0, action='pick up passenger' ) 
Event(time=11, proc=1, action='pick up passenger' ) 


这 两 个 事件 的 意思 是 ，0 号 出 租车 14 分 钟 后 拉 到 第 一 个 乘客 ， 而 工 号 出 租车 
(time=10 时 出 发 ) 1 分 钟 后 (time=11) 拉 到 乘客 。 如 果 这 两 个 事件 在 
队列 中 ， 主 循环 从 优先 队列 中 获取 的 第 一 个 事件 将 是 Event(time=11， 


proc=1, action='pick up passenger ' ° 


下 面 分 析 这 个 仿真 系统 的 主 算法 Simulator.run 方法 。 在 main 函数 
+H, AME Simulator 类 之 后 立即 就 调用 了 这 个 方法 ， 如 下 所 示 : 


sim = Simulator(taxis) 
sim.run(end_time) 


Simulator 类 带 有 注解 的 代码 清单 在 示例 16-23 中 ， 下 面 先 概 述 
Simulator. run 方法 实现 的 算法 。 


(1) 友 代 表示 各 辆 出 租车 的 进程 。 


a. 在 各 辆 出 租车 上 调用 next ( ) 函数 ， 预 激 协 程 。 这 样 会 产 出 各 辆 出 租 
车 的 第 一 个 事件 。 


b. 把 各 个 事件 放 入 Simulator 类 的 self .events 属性 (队列) 中 。 
(2) 满足 sim_time < end_time 条 件 时 ， 运 行 仿真 系统 的 主 循环 。 
a. 检查 self.events 属性 是 否 为 空 ， 如 果 为 宇 ， 跳 出 循环 。 


b. 从 self.events 中 获取 当前 事件 (current_event) ， 即 
PriorityQueue 对 象 中 时 间 值 最 小 的 Event 对 象 。 


c. 显示 获取 的 Event 对 象 。 


d. 获 取 current_event 的 time 属性 ， 更 新 仿真 时 间 。 


e. 把 时 间 发 给 current_event 的 proc 属性 标识 的 协 程 ， 产 出 下 一 个 
事件 (next_event) 。 


f. 把 next_event 添加 到 self.events 队列 中 ， 排 定 
next_event ° 


Simulator 类 完整 的 代码 如 示例 16-23 所 示 。 


示例 16-23 taxi_sim.py: Simulator， 一 个 简单 的 离散 事件 仿真 类 ; 
关注 的 重点 是 run 方法 


class Simulator: 


def _ init__(self, procs_map): 
self.events = queue.PriorityQueue() 
self.procs = dict(procs_map) 


def run(self, end_time): @ 
""" 排 定 并 显示 事件 ， 直 到 时 间 结束 """ 
# 排 定 各 辆 出 租车 的 第 一 个 事件 
for _, proc in sorted(self.procs.items()): @ 
first_event = next(proc) ® 
self.events.put(first_event) @ 


# 这 个 仿真 系统 的 主 循 环 
sim time = 0 © 
while sim time < end time: © 
if self.events.empty(): @ 
print('*** end of events ***') 
break 


current_event = self.events.get() © 
sim_time, proc_id, previous_action = current_event © 
print('taxi:', proc_id, proc_id * ' ', current_event) 四 
active_proc = self.procs[proc_id] @® 
next_time = sim_time + compute_duration(previous_action) @ 
try: 
next_event = active_proc.send(next_time) ©® 
except StopIteration: 
del self.procs[proc_id] @ 
else: 
self.events.put(next_event) ©® 
else: © 
msg = '*** end of simulation time: {} events pending ***' 
print(msg.format(self.events.qsize())) 


@ run 方法 只 需 


仿真 结束 时 间 (end_time) 这 一 个 参数 。 


此 
@ 使 用 sorted 函数 获取 selLf ,procs 中 按键 排序 的 元 素 ， 用 不 到 键 ， 
此 赋值 给 _。 


© 调用 next(proc) 预 激 各 个 协 程 ， 向 前 执行 到 第 一 个 yie1d 表达 式 ， 做 
好 接收 数据 的 准备 。 产 出 一 个 Event 对 象 。 


O 把 各 个 事件 添加 到 self.events 属性 表示 的 PriorityQueue TR 
中 。 如 示例 16-20 中 的 运行 示例 ， 各 辆 出 租车 的 第 一 个 事件 是 'leave 


garage' ° 


© 把 sim_time 变量 (仿真 钟 ) YAR -° 

O 这 个 仿真 系统 的 主 循环 : sim_time 小 于 end_time 时 运行 。 
@ 如 采 队 列 中 没有 未 完成 的 事件 ， 退 出 主 循环 。 

O 获取 优先 队列 中 time 属性 最 小 的 Event 对 象 ， 这 是 当前 事件 


(current_event) 。 


im 


O 拆 包 Event 对 象 中 的 数据 。 这 一 行 代码 会 更 新 仿真 钟 sim_time， 对 应 
于 事件 发 生 时 的 时 间 。16 


“这 通常 是 离散 事件 仿真 : 每 次 循环 时 仿真 钟 不 会 以 固定 的 量 推进 ， 而 是 根据 各 个 习 
yr ° 


© 显示 Event 对 象 ， 指 明和 是 哪 轿 出 租车 ， 并 根据 出 租车 的 编号 缩 进 。 
® \self.procs 字典 中 获取 表示 当前 活动 的 出 租车 的 协 程 。 


@@ 调用 compute_duration(...) 画 数 ， 传 入 前 一 个 动作 ( 例 
W, 'pick up passenger'、'drop off passenger' 等 ) ， 把 结果 


加 到 sim_time 上 ， 计 算出 下 一 次 活动 的 时 间 。 


© 把 计算 得 到 的 时 间 发 给 出 租车 协 程 。 协 程 会 产 出 下 一 个 事件 
(next_event) ， 或 者 抛 出 StopIteration 异常 (完成 时 ) 


© 如 果 搜 出 了 StopIteration 异常 ， 从 self .procs 字典 中 删除 那个 协 
程 。 


® Gil, #2 next_event 放 入 队列 中 。 
O 如 果 循 环 由 于 仿真 时 间 到 了 而 退出 ， 显 示 待 完成 的 事件 数量 CBO BRE 
BER) © 
注意 ， 示 例 16-23 中 的 Simulator .run 方法 有 两 处 用 到 了 第 15 章 介 绍 的 
else 块 ， 而 且 都 不 在 站 语句 中 。 
© Ewhile 循环 有 一 个 else 语句 ， 报 告 仿真 系统 由 于 到 达 结 束 时 间 而 
结束 ， 而 不 是 由 于 没有 事件 要 处 理 而 结束 。 


*+ 靠 近 主 while 循环 底部 那个 try 语句 把 next_time 发 给 当前 的 出 租车 进 
程 ， 党 试 获取 下 一 个 事件 (next_event) ， 如 果 成 功 ， 执行 else 块 ,把 
next_event 放 入 self .events 队列 中 。 


我 觉得 ， 如 果 没 有 这 两 个 else $, Simulator .run 方法 的 代码 会 有 点 难 


这 个 示例 的 要 由 是 说 明 如 何在 一 个 主 循环 中 处 理事 件 ， 以 及 如 何 通 过 发 送 数 
据 驱 动 协 程 。 这 是 asyncio 包 底 层 的 基本 思想 ， 我 们 在 第 18 章 会 学 习 这 个 
4, O° 


件 持续 的 时 间 推 


由 


16.10 ”本章 小 结 
Guido van Rossum 写 道 ， 生 成 器 有 三 种 不 同 的 代码 编写 风格 : 


有 传统 的 “ 拉 取 式 ”( 和 迭代 器 ) 、“ 推 送 式 ”( 例 如 计算 平均 值 那 个 示 
fil) ， 还 有 “任务 式 ”( 读 过 Dave Beazley 写 的 协 程 教 程 了 吗 ...... j an 


1748) H Xf Python-ideas 邮件 列表 中 “Yield-From: Finalization guarantees” 消 息 的 回复 。Guido 所 说 的 
David Beazley 写 的 教程 是 “A Curious Course on Coroutines and Concurrency”。 


第 14 章 专门 介绍 了 和 迭代 器 ， 本 章 则 介绍 了 “推送 式 ” 协 程 ， 还 介绍 了 特别 简 
单 的 “任务 式 ” 一 一 仿真 示例 中 的 出 租车 进程 。 第 18 章 会 在 并 发 编程 中 使 用 
这 两 种 技术 实现 异步 任务 。 


计算 移动 平均 值 的 示例 展示 了 协 程 的 常见 用 途 : 累加 器 ， 处 理 接收 到 的 值 。 
我 们 知道 ， 可 以 在 协 程 上 应 用 装饰 器 ， 预 激 协 程 ; 在 某 些 情况 下 ， 这 么 做 更 
方便 。 不 过 要 记 住 ， 预 激 装饰 器 与 协 程 的 某 些 用 法 不 兼容 。 尤 其 是 yield 
from subgenerator ()， 这 个 结构 假定 subgenerator 没有 预 激 ， 然 后 
自动 预 激 。 


每 次 调用 send 方法 时 ， 作 为 累加 器 使 用 的 协 程 可 以 获取 部 分 结果 ， 不 过 能 
返回 值 的 协 程 更 有 用 。 这 个 特性 在 PEP 380 中 定义 ， 于 Python 3.3 引入 。 我 
们 知道 ， 现 在 生成 器 中 的 return the_result 语句 会 抛 出 
StopIteration(the_result) 异常 ， 这 样 调用 方 可 以 从 异常 的 value 
属性 中 获取 the_result。 这 样 获取 协 程 的 结果 还 是 很 麻烦 ， 不 过 PEP 380 
引入 的 yield from 句法 能 自动 处 理 。 


探讨 yield from 结构 时 ， 我 们 首先 从 使 用 人 简单 的 迭代 器 的 示例 入 手 ， 然 
后 又 举 了 一 个 例子 ， 重 点 说 明 yield from 结构 的 三 个 主要 组 件 ， 委 派生 
成 器 (在 定义 体 中 使 用 yield from) , yield from 激活 的 子 生成 器 ， 
以 及 通过 委派 生成 器 中 yield from 表达 式 架 设 起 来 的 通道 把 值 发 给 子 生 
或 器 ， 从 而 驱动 整个 过 程 的 客户 代码 。 最 后 ， 那 一 节 参 照 PEP 380 中 使 用 的 
英语 和 类 似 Python 的 伪 代 码 分 析 了 yield from 结构 的 正式 定义 。 


本 章 最 后 举 了 一 个 离散 事件 仿真 示例 ， 说 明 如 何 使 用 生成 器 代替 线程 和 加 
调 ， 实 现 并 发 。 那 个 出 租车 仿真 系统 虽然 简单 ， 但 是 首次 一 宽 了 事件 驱动 型 
框架 (AN Tornado 和 asyncio) 的 运作 方式 : 在 单个 线程 中 使 用 一 个 主 循 环 
驱动 协 程 执行 并 发 活动 。 使 用 协 程 做 面向 事件 编程 时 ， 协 程 会 不 断 把 控制 权 
让 步 给 主 循环 ， 激 活 并 向 前 运行 其 他 协 程 ， 从 而 执行 各 个 并 发 活动 。 这 是 一 
种 协作 式 多 任务 : 协 程 显 式 自 主 地 把 控制 权 让 步 给 中 央 调 度 程序 。 而 多 线程 


实现 的 是 抢占 式 多 任务 。 调 度 程序 可 以 在 任何 时 刻 暂 俘 线程 “即使 在 执行 一 
个 语句 的 过 程 中 ) ， 把 控制 权 让 给 其 他 线程 。 


最 后 要 说 明 一 点 ， 本 章 对 协 程 的 定义 是 宽泛 的 、 不 正式 的 ， 即 : 通过 客户 调 
用 .send(...) 方法 发 送 数据 或 使 用 yie1ld from 结构 张 动 的 生成 器 函 
数 。 写 作 本 书 时 ，“PEP 342— Coroutines via Enhanced Generators” 和 现 有 的 大 
多 数 Python 书籍 都 使 用 这 个 宽泛 的 定义 。 第 18 章 介绍 的 asyncio 库 建 构 
在 协 程 之 上 ， 不 过 采用 的 协 程 定 义 更 为 严格 : 在 asyncio 库 中 ， 协 程 ( 通 
常 ) 使 用 @asyncio.coroutine 装饰 嚣 装饰， 而 且 始 终 使 用 yield 

from 结构 驱动 ， 而 不 通过 直接 在 协 程 上 调用 .send(... ) 方法 驱动 。 当 
然 , 在 asyncio 库 的 底层 ， 协 程 使 用 next(...) 函数 和 .send(...) 方 
法 驱动 ， 不 过 在 用 户 代 码 中 只 使 用 yield from 结构 驱动 协 程 运行 。 


16.11 ”延伸 阅读 


David Beazley 是 Python 生成 器 和 协 程 的 终极 权威 。 他 与 Brian Jones 合 车 的 
《Python Cookbook ($ 3 版 ) 中 文 版 》 一 书 中 有 很 多 使 用 协 程 编写 的 诀窍 。 
Beazley 在 PyCon 期 间 开 设 的 课程 兼 有 深度 和 广度 ， 因 此 享有 盛名 。 首 先是 
PyCon US 2008 期 间 的 “Generator Tricks for Systems Programmers” 课 程 ， 在 
PyCon US 2009 期 间 又 开设 了 声名 远 播 的 “A Curious Course on Coroutines and 
Concurrency” 课 程 (三 个 部 分 的 全 部 视频 链接 很 难 找到 第 一 部 分 ;第 二 部 
分 ; 第 三 部 分 ) 。 他 最 新 的 课程 在 蒙特 利 尔 PyCon 2014 期 间 开 设 ， 题 
为 “Generators: The Final Frontier”。 在 这 个 课程 中 ， 他 举 了 更 多 并 发 的 例子 ， 
因此 与 本 书 第 18 章 的 话题 联系 更 大 。 他 根本 不 担心 学 员 的 大 脑 会 爆炸 ， 
此 在 “The Final Frontier" 课 程 的 最 后 一 部 分 用 协 程 代 奉 了 经 典 的 访问 者 模式 ， 
用 于 计算 算 木 表达 式 。 


使 用 协 程 能 以 多 种 新 方式 组 织 代 码 ， 不 过 与 递归 和 多 态 (动态 调度 ) 一 样 ， 
要 人 花 点 时 间 才 能 习惯 。James Powell 写 了 一 篇 文章 ， 题 为 “Greedy algorithm 
with coroutines”。 他 在 这 篇 文章 中 使 用 协 程 重 写 了 经 典 的 算法 。 你 可 能 还 想 
浏览 ActiveState Code 诀窍 数据 库 中 标记 为 协 程 的 流行 诀 穿 。 


Paul Sokolovsky 为 Damien George 开发 的 超级 精简 的 MicroPython 〈 针 对 微 
控制 器 ) 解释 器 实现 了 yield from 结构 。 在 研究 这 个 特性 的 过 程 中 ， 他 
制作 了 非常 详细 的 示意 图 ， 解 说 yield from 结构 的 工作 原理 ， 并 在 
python-tulip 邮件 列表 中 分 享 。Sokolovsky 很 友好 ， 人 允许 我 把 那个 PDF 文件 
复制 到 本 书 的 网 站 中 ， 那 个 文件 的 固定 链接 是 http://flupy.org/resources/yield- 
from.pdf ° 


写作 本 书 时 ， 只 有 asyncio 库 本 喘 和 使 用 这 个 库 的 代码 大 量 使 用 yield 
from。 我 化 了 很 多 时 间 ， 想 找到 不 依赖 asyncio 库 的 yield from 示 
例 。Greg Ewing (PEP 380 的 作者 ， 为 CPython 实现 了 yield from) 发 表 
y— yield from 的 使 用 示例 : BinaryTree 类 、 一 个 简单 的 XML 解 
析 器 和 一 个 任务 调度 程序 。 


Brett Slatkin 写 的 《Effective Python: 编写 高 质量 Python 代码 的 59 个 有 效 方 
法 》 一 书 中 的 第 40 条 短小 精辟 ， 题 为 “考虑 用 协 程 来 并 发 地 运行 多 个 函 

数 ” 《网 上 有 免费 的 英文 版 样 章 ) 。 这 一 节 中 使 用 yield from 驱动 生成 妖 
的 示例 是 我 见 过 最 棒 的 : 那个 示例 实现 了 John Conway 发 明 的 “生命 游戏 ”， 
使 用 协 程 管理 游戏 运行 过 程 中 各 个 细胞 的 状态 。 该 书 的 随 书 代码 在 一 个 
GitHub 仓库 中 。 我 重 构 了 那个 “生命 游戏 ”示例 一 一 把 Slatkin 书 中 的 函数 和 
类 与 测试 代码 分 开 (原来 的 代码 )。 我 还 编写 了 doctest 形式 的 测试 ， 因 此 不 
a a 各 个 协 程 和 类 的 输出 。 重 构 后 的 示例 发 布 在 GitHub Gist 
aX] Vy o 


还 有 几 个 有 趣 的 示例 没 用 asyncio Æ, HHT yield from: Peter Otten 
在 Python Tutor 邮件 列表 中 发 布 的 消息 ，“Comparing two CSV files using 
Python”; Ian Ward 以 iPython Notebook 形式 发 布 的 “Tterables, Iterators, and 
Generators” 教 程 ， 实 现 的 是 剪刀 石 尖 布 游戏 。 


Guido van Rossum 在 python-tulip Google Group 中 发 表 了 一 篇 内 容 很 长 的 消 
息 ， 题 为 “The difference between yield and yield-from”， 值 得 一 读 。 
2009 年 3 月 21 日，Nick Coghlan 在 Python-Dev 邮件 列表 中 发 布 了 带 有 大 量 
注释 的 yield from 扩 充实 现 (https://mail.python.org/pipermail/python- 
dev/2009-March/087382.html) 。 在 那 篇 消息 中 ， 他 写 道 : 


不 管 人 们 是 否 觉 得 使 用 yield from 结构 的 代码 难以 理解 ， 也 不 管 人 


们 能 否 领 会 协作 式 多 线程 相关 的 概念 ，yield from 结构 底层 的 精巧 处 
理 能 实现 真正 的 符 套 生成 器 。 


Yury Selivanov #5 HJ“PEP 492—Coroutines with async and await syntax” 提 议 
为 Python 增加 两 个 关键 字 : async 和 await ° async 与 其 他 现 有 的 关键 字 
结合 使 用 ， 用 于 定义 新 的 语言 结构 。 例 如 ，async def 用 于 定义 协 程 ， 
async for 用 于 使 用 异步 迭代 器 (实现 aiter 和 ”anext 方 

法 ， 这 是 协 程 版 的 __iter 和 __next__ 方法 ) 迭代 可 和 迭代 的 异步 对 

象 。 为 了 避免 与 即将 引入 的 async 关键 字 冲 突 ，asyncio.async( ) 函数 
将 在 Python 3.4.4 中 重 命 名 为 asyncio.ensure_future()。await 关键 
字 的 作用 与 yield from 结构 类 似 ， 不 过 只 能 在 以 async def 定义 的 协 
程 (禁止 使 用 yield 和 yield from) 中 使 用 。PEP 492 使 用 新 句法 把 发 


展 成 类 似 协 程 对 象 的 生成 器 与 全 新 的 原生 协 程 对 象 明 确 地 区 分 开 了 。 得 益 于 
async 和 await 关键 字 ， 以 及 几 个 特殊 的 新 方法 ，Python 语言 将 对 原生 的 

协 程 对 象 提供 更 好 的 文 持 。 协 程 已 经 做 好 准备 ， 会 成 为 Python 未 来 特别 重要 
的 特性 ， 因 此 Python 语言 应 该 更 好 地 集成 协 程 。 


使 用 离散 事件 仿真 系统 做 试验 是 熟悉 协作 式 多 任务 的 好 方法 。 维 基 百 科 中 

的 “Discrete event simulation” 一 文 是 不 错 的 入 门 资 料 。18Ashish Gupta 写 的 短 
篇 教程 “Writing a Discrete Event Simulation: Ten Easy Lessons” 说 明了 如 何 自 己 
动手 〈 不 使 用 特别 的 库 ) 编写 离散 事件 仿真 系统 。 那 篇 教程 中 的 代码 使 用 
Java 编写 ， 因 此 是 基于 类 的 ， 而 且 没 使 用 协 程 ， 不 过 可 以 轻松 地 移植 到 
Python。 除 了 代码 之 外 ， 那 篇 简短 的 教程 还 介绍 了 离散 事件 仿真 的 术语 和 组 
件 。 把 Gupta 教程 中 的 示例 转换 成 Python 类 ， 然 后 再 转换 成 利用 协 程 的 类 ， 
是 个 很 好 的 练习 。 


18 如 今 ， 即 使 终身 教授 也 同意 ， 维 基 百 科 儿 乎 是 学 习 任何 计算 机 科学 知识 的 入 门 首选 。 对 其 他 知识 而 
言 虽 然 不 是 如 此 ， 但 是 在 计算 机 科学 这 方面 ， 维 基 百 科 特 别 棒 。 


现成 的 Python 协 程 库 ， 可 以 使 用 SimPy。 这 个 库 的 在 线 文 档 中 说 
Jä: 


SimPy 是 使 用 标准 的 Python 开发 的 基于 进程 的 离散 事件 仿真 框架 ， 事 件 
调度 程序 基于 Python 的 生成 器 实现 ， 因 此 还 可 用 于 异步 网 络 或 实现 多 智 
能 体系 统 ( 即 可 模拟 ， 也 可 真正 通信 ) 。 


协 程 不 是 特别 新 的 Python 特性 ， 但 是 得 到 异步 编程 框架 文 持 (Tornado 最 先 
LIF) 之 前 ， 只 在 较 守 的 应 用 领域 内 使 用 。Python 3.3 引入 的 yield from 
结构 和 Python 3.4 添加 的 asyncio 包 可 能 会 提升 协 程 《和 Python 3.4 本 

身 ) 的 使 用 量 。 但 写作 本 书 时 ，Python 3.4 发 布 还 不 到 一 年 ， 因 此 观看 David 
Beazley 的 课程 ， 阅 读 涉及 这 个 话题 的 经 典 实例 时 ， 不 会 有 太 多 内 容 深入 探 
讨 Python 协 程 编程 。 不 过 ， 这 只 是 暂时 的 。 


raise from lambda 


Tene 说 ， 关 键 字 的 作用 是 建立 控制 流程 和 表达 式 计算 的 基本 规 
Ml o 


语言 的 关键 字 像 是 棋盘 游戏 中 的 棋子 。 对 国际 象棋 来 说 ， 关 键 字 是 由、 
Ugana, 对 围棋 来 说 ， 关 键 字 是 e。 


国际 象棋 的 棋 手 实现 计划 时 ， 有 六 种 类 型 的 棋子 可 用 ;而 围棋 的 棋 手 看 
起 来 只 有 一 种 类 型 的 棋子 可 用 。 可 是 ， 在 围棋 的 玩法 中 ， 相 邻 的 棋子 能 
构成 更 大 更 稳定 的 模子， 形状 各 异 ， 不 受 束 缚 。 围 棋 棋 子 的 某 些 排列 是 
不 可 摊 毁 的 。 围 棋 的 表现 力 比 国际 象棋 强 。 围 棋 的 开局 走 法 有 361 种 ， 
KAA 1e+170 个 合 规 的 位 置 ; 而 国际 象棋 的 开局 走 法 有 20 种 ， 有 
1e+50 个 位 置 。 

如 果 为 国际 象棋 添加 一 个 新 棋子 ， 将 佛 来 颠覆 性 的 改变 ， 为 编程 语言 添 
人 
字 是 合理 的 。 


表 16-1: 不 同 编程 语言 中 的 关键 字数 量 


本 44 个 


关键 字 可 以 作为 标识 符合 


羊 ， 基 本 类 型 的 名 称 (char、float 等 ) 是 


包含 Java 1.0 的 所 有 关键 字 ， 很 多 都 没 用 
(http://mzl.la/1JIr8fM ) 


PHP 5.3 之 后 引入 了 七 个 关键 字 ， 如 goto > trait 和 yield 


据 cppreference.com 网 站 给 出 的 信息 ，C++11 在 现 有 的 75 个 关 
键 字 的 基础 上 添加 了 10 个 


oo Scheme “| 任何 人 都 能 定义 新 关键 字 


* 


围棋 的 英文 是 Go， 因 此 作者 备注 这 里 说 的 是 Go 语言 。 译 者 注 


Python 3 添加 了 nonlocal 关键 字 ， 把 None、True 和 False 提升 为 
KEF, RFT print 和 exec。 在 语言 的 发 展 过程 中 ， 弃 用 关键 字 十 
分 罕见 。 表 16-1 列 出 了 几 门 语言 ， 按 照 关 键 字 的 数量 排序 。 


Scheme 继承 了 Lisp 的 宏 ， 人 允许 任何 人 创建 特殊 的 形式 ， 为 语言 添加 新 
的 控制 结构 和 计算 规则 。 用 户 定 义 的 这 种 标识 符 叫 作 “ 句 法 关键 字 ”。 
Scheme R5RS 标准 声称 ,“ 这 门 语言 没有 保留 的 标识 符 ”( 标 准 的 第 45 
Bl, 但 是 MIT/GNU Scheme 这 种 特殊 的 实现 预定 义 了 34 个 句法 关键 
字 ， 例 如 if » lambda 和 define-syntax (用 于 创建 新 关键 字 的 关 
RF) 0 19 


Python 像 国际 象棋， 而 Scheme 像 围棋 。 


现在 ， 回 到 Python 句法 。 我 觉得 Guido 对 关键 字 的 态度 过 于 保守 了 。 关 
键 字 的 数量 应 该 少 ， 添 加 新 关键 字 可 能 会 破坏 大 量 代 码 ， 但 是 在 循环 中 
使 用 else 揭示 了 一 个 递归 问题 : 在 更 适合 使 用 新 关键 字 的 地 方 重 用 现 
有 的 关键 字 。 在 for、while 和 try 的 上 下 文中 ， 应 该 使 用 then 关 
RF, MAZZA else 。 


在 这 个 问题 上 ， 最 严重 的 一 点 是 重用 def 。 现 在 ， 这 个 关键 字 用 于 定义 
本 数 、 生成 和 协 程 ， 而 这 此 对象 之 问 的 关 异 很 大 ， 不 应 该 使 用 相同 的 
句法 声明 。 


引入 yield from 句法 尤其 让 人 失望 。 再 次 声明 ， 我 觉得 真 的 应 该 为 
Python 使 用 者 提供 新 的 关键 字 。 更 糟 的 是 ， 这 开启 了 新 的 趋势 : 把 现 有 
的 关键 字 串 起 来 ， 创 建新 的 句法 ， 而 不 添加 描述 性 的 合理 关键 字 。 恐 介 
有 一 天 我 们 要 苦 戎 思索 raise from lambda 是 什么 意思 ° 


突 发 新 闻 


完成 本 书 的 技术 审 校 之 后 ，Yury Selivanov 提交 的 “PEP 492 一 Coroutines 
with async and await syntax” 好 像 要 被 接受 了 ， 将 在 Python 3.5 中 实现 。 
21Guido van Rossum 和 Victor Stinner 都 支持 这 个 PEP， 前 者 是 Python 语 
言 的 创造 者 ， 后 者 是 asyncio 库 的 主要 维护 者 ， 而 asyncio 库 将 是 
新 句法 的 主要 使 用 案例 。 回 应 Selivanov 在 Python-ideas 邮件 列表 中 发 布 
的 消息 时 ，Guido 甚至 暗示 ， 为 了 实现 这 个 PEP， 可 能 会 延迟 发 布 
Python 3.5。 


当然 ， 这 会 平 妃 前 一 节 所 述 的 大 部 分 抱怨 。 


| 19“The Value Of Syntax?” 一 文 对 可 扩展 的 句法 和 编程 语言 的 可 用 性 做 了 有 趣 的 探讨 。Lambda the 
| Ultimate 讨论 组 是 编程 语言 极 客 的 度假 胜地 。 


20JavaScript、Python 和 其 他 语言 都 有 这 样 的 问题 。 推 荐 阅读 Bob Nystrom 写 的 “What Color Is Your 
| Function?” 一 文 。 


?1python 3.5 已 经 接受 了 PEP 492， 增 加 了 两 个 关键 字 : async 和 await 。 编者 注 


第 17 间 使 用 期 物 处 理 并 发 


择 击 线程 的 往往 是 系统 程序 员 ， 他 们 考虑 的 使 用 场景 对 一 般 的 应 用 程序 
员 来 说 ， 也 许 一 生 都 不 会 遇 到 ..…... 应 用 程序 员 遇 到 的 使 用 场景 99% 的 
情况 下 只 需 知道 如 何 派生 一 堆 独 立 的 线程 ， 然 后 用 队列 收集 结果 。 


Michele Simionato 


深度 思考 Python 的 人 


1 摘自 Michele Simionato 发 表 的 文章 “Threads, processes and concurrency in Python: some thoughts”, =I] 
标题 为 “Removing the hype around the multicore (non) revolution and some (hopefully) sensible comment 
about threads and other forms of concurrency” ° 


本 章 主 要 讨论 Python 3.2 引入 的 concurrent.futures 模块 ， 从 ae 中 
安装 futures 包 之 后 ， 也 能 在 Python 2.5 及 以 上 版 本 中 使 用 这 个 库 。 这 
库 封 装 了 前 面 的 引文 中 Michele Simionato 所 述 的 模式 ， 特别 易于 使 用 。 


这 一 章 还 会 介绍 “期 物 ” (future) “的 概念 。 期 物 指 一 种 对 象 ， 表 示 异 步 执行 
的 操作 。 这 个 概念 的 作用 很 大 ， 是 concurrent .futures 模块 和 
asyncio 包 (第 18 章 讨论 ) 的 基础 。 


期 物 ” 是 我 自 创 的 词 ， 其 中 的 “ 物 ” 是 指 “ 物 件 ”(object， 也 就 是 对 象 ) 。 起 初 读者 可 能 不 明 其 意 ， 可 
期 货 、 期 权 和 期 房 对 比 理解 。 一 一 译 者 注 


下 面 举 个 示例 ， 作 为 引子 。 


17.1 示例: 网 络 下 载 的 三 种 风格 


为 了 高 效 处 理 网 络 TO， 需要 使 用 并 发 ， 因 为 网 络 有 很 高 的 延迟 ， 所 以 为 了 
不 浪费 CPU 周期 去 等 待 ， 最 好 在 收 到 网 络 响应 之 前 做 些 其 他 的 事 。 


为 了 通过 代码 说 明 这 一 点 ， 我 写 了 三 个 示例 程序 ， 从 网 上 下 载 20 个 国家 的 
国旗 图 像 。 第 一 个 示例 程序 F flags.py 是 依 序 下 载 的 : 下 载 完 一 个 图 像 ， 并 将 
其 保存 在 硬盘 中 之 后 ， 才 请 求 下 一 个 图 像 。 另 外 两 个 脚本 是 并 发 下 载 的 : JL 
平 同时 请 求 所 有 图 像 ， 每 下 载 完 一 个 文件 就 保存 一 个 文件 。 
flags_threadpool.py 脚本 使 用 concurrent.futures 模块 ， 而 
flags_asyncio.py 脚本 使 用 asyncio 包 。 


dr A 


示例 17-1 是 运行 这 三 个 脚本 得 到 的 结果 ， 每 个 脚本 都 运行 三 次 。 我 还 在 
YouTube 上 发 布 了 一 个 73 秒 的 视频 ， 让 你 观看 这 些 脚 本 的 运行 情况 ， 你 会 
看 到 一 个 OS X Finder 窗口 ， 显 示 运 行 过程 中 保存 的 国旗 图 像 文件 。 这 些 脚 
本 从 flupy.org 下 载 图 像 ， 而 这 个 网 站 架设 在 CDN 之 后 ， 因 此 第 一 次 运行 时 
可 能 要 等 很 久 才 能 看 到 结果 。 示 例 17-1 中 显示 的 结果 是 运行 几 次 之 后 收集 
的 ， 因 此 CDN 中 已 经 有 了 缓存 。 


示例 17-1 运行 fags.py、flags_threadpool.py 和 flags_asyncio.py 脚本 得 
到 的 结果 


$ python3 flags.py 

BD BR CD CN DE EG ET FR ID IN IR 
20 flags downloaded in 7.26s @ 
$ python3 flags. py 

BD BR CD CN DE EG ET FR ID IN IR 
20 flags downloaded in 7.20s 

$ python3 flags.py 

BD BR CD CN DE EG ET FR ID IN IR 
20 flags downloaded in 7.09s 

$ python3 flags_threadpool.py 

DE BD CN JP ID EG NG BR RU CD IR 
20 flags downloaded in 1.37s © 
$ python3 flags_threadpool.py 

EG BR FR IN BD JP DE RU PK PH CD 
20 flags downloaded in 1.60s 

$ python3 flags_threadpool.py 

BD DE EG CN ID RU IN VN ET MX FR 
20 flags downloaded in 1.22s 

$ python3 flags_asyncio.py @ 

BD BR IN ID TR DE CN US IR PK PH 
20 flags downloaded in 1.36s 

$ python3 flags_asyncio.py 

RU CN BR IN FR BD TR EG VN IR PH 
20 flags downloaded in 1.27s 

$ python3 flags_asyncio.py 

RU IN ID DE BR VN PK MX US IR ET 
20 flags downloaded in 1.42s 


@ 每 次 运行 脚本 后 ， 首 先 显示 下 载 过 程 中 下 载 完 毕 的 国家 代码 ， 最 后 显示 一 
个 消息 ， 说 明 耗 时 。 


@ flags.py 脚本 下 载 20 个 图 像 平均 用 时 7.18 秒 。 
© flags_threadpool.py 脚本 平均 用 时 1.40 秒 。 
© flags_asyncio.py 脚本 平均 用 时 1.35 秒 。 


@ 注意 国家 代码 的 顺序 : 对 并 发 下 载 的 脚本 来 说 ， 每 次 下 载 的 顺序 都 不 同 。 


两 个 并 发 下 载 的 脚本 之 间 性 能 差异 不 大 ， 不 过 都 比 依 序 下 载 的 脚本 快 5 倍 
多 。 这 只 是 一 个 特别 小 的 任务 ， 如 果 把 下 载 的 文件 数量 增加 到 几 百 个 ， 并 发 
下 载 的 脚本 能 比 依 序 下 载 的 脚本 快 20 倍 或 更 多 。 


给、 在 公 网 中 测试 HTTP 并 发 客户 端 可 能 不 小 心 变 成 拒绝 服务 

(Denial-of-Service, DoS) 攻击 ， 或 者 有 这 么 做 的 嫌疑 。 我 们 可 以 像 示 
例 17-1 那样 做 ， 因 为 那 三 个 脚本 被 硬 编码 ， 限 制 只 发 起 20 个 请 求 。 如 
果 想 大 规模 测试 HTTP 服务 器 ， 应 该 自己 架设 测试 服务 器 。 在 本 书 的 
GitHub 仓库 中 ，17-futures/countries/README.rst 文件 说 明了 如 何在 本 地 
架设 Nginx 服务 器 。 


下 面 我 们 来 分 析 示 例 17-1 测试 的 两 个 脚本 一 一 flags.py 和 

flags_threadpool.py， 看 看 它们 的 实现 方式 。 第 三 个 脚本 flags_asyncio.py 留 到 
第 18 章 再 分 析 。 将 这 三 个 脚本 一 起 演示 是 为 了 表明 一 个 观点 : 在 IO 密集 型 
应 用 中 ， 如 果 代 码 写 得 正确 ， 那 么 不 管 使 用 哪 种 并 发 策略 (使 用 线程 或 
asyncio 包 ) ， 和 理 吐 量 都 比 依 序 执行 的 代码 高 很 多 。 


下 面 分 析 代码 。 
17.1.1 ” 依 序 下 载 的 脚本 


示例 17-2 不 太 有 吸引 力 ， 不 过 实现 并 发 下 载 的 脚本 时 会 重用 其 中 的 大 部 分 代 
码 和 设置 ， 因 此 值得 分 析 一 下 。 


和 为 了 清楚 起 见 ， 示 例 17-2 没有 处 理 异 常 。 稍 后 会 处 理 异常 ， 这 里 
我 们 想 集中 说 明代 码 的 基本 结构 ， 以 便 和 并 发 下 载 的 脚本 进行 对 比 。 


17-2 flags.py: 依 序 下 载 的 脚本 ， 另 外 两 个 脚本 会 重用 其 中 几 个 画 


import os 
import time 
import sys 


import requests @ 


POP20_ CC = ('CN IN US ID BR PK NG BD RU JP ' 


'MX PH VN ET EG DE IR TR CD FR').split() @ 
BASE_URL = 'http://flupy.org/data/flags' © 


DEST_DIR = 'downloads/' @ 


def save_flag(img, filename): © 
path = os.path.join(DEST_DIR, filename) 
with open(path, 'wb') as fp: 
fp.write(img) 


def get_flag(cc): © 
url = '{}/{cc}/{cc}.gif'.format(BASE_URL, cc=cc.lower()) 
resp = requests.get(url) 
return resp.content 


def show(text): @ 
print(text, end=' ') 
sys.stdout.flush() 


def download_many(cc_list): ® 
for cc in sorted(cc_list): © 
image = get_flag(cc) 
show(cc) 
save_flag(image, cc.lower() + '.gif') 


return len(cc_list) 


def main(download_many): 四 
tO = time.time() 
count = download_many(POP20_CC) 
elapsed = time.time() - tO 
msg = '\n{} flags downloaded in {:.2f}s' 
print(msg.format(count, elapsed) ) 


if _name__ == '__main_': 
main(download_many) @® 


@ 导入 requests 库 。 这 个 库 不 在 标准 库 中 ， 因 此 依照 惯例 ， 在 导入 标准 
库 中 的 模块 (os、time 和 sys) 之 后 导入 ， 而 且 使 用 一 个 空 行 分 隔 开 。” 


3 可 以 使 用 pip install requests 命令 安装 requests 库 。 一 一 编者 注 


@ 列 出 人 口 最 多 的 20 个 国家 的 ISO 3166 HRR, BRAUER 
列 。 


© 获取 国旗 图 像 的 网 站 。4 


4 国旗 图 像 出 自 CIA 世界 概况 ， 由 美国 政府 发 布 ， 属 公共 领域 。 我 把 这 些 图 像 复 制 到 了 自己 的 网 站 ， 
以 此 避免 向 CIA.gov 发 起 DoS 攻击 的 嫌疑 。 


@ 保存 图 像 的 本 地 目录 。 

日 把 img ( 字 节 序列 ) 保存 到 DEST_DIR HRF, MAN filename 。 
O 指定 国家 代码 ， 构 建 URL， 然 后 下 载 图 像 ， 返 回响 应 中 的 二 进 制 内 容 。 
@ 显示 一 个 字符 串 ， 然 后 刷新 sys , stdout， 这 样 能 在 一 行 消息 中 看 到 进 
Python 中 得 这 么 做 ， 因 为 正常 情况 下 ， 遇 到 换行 才 会 刷新 stdout 
© download_many 是 与 并 发 实现 比较 的 关键 本 数 。 


O 按 字母 表 顺 序 迭 代 国 家 代码 列表 ， 明 确 表明 输出 的 顺序 与 输入 一 致 。 返 回 
下 载 的 国旗 数量 。 


© main 函数 记录 并 报告 运行 download_many 函数 之 后 的 耗 时 。 
D main 函数 必须 调用 执行 下 载 的 函数 ， 我 们 把 download_many 函数 当 作 


参数 传 给 main HA, iE main 函数 可 以 用 作 库 函数 ， 在 后 面 的 示例 中 接 
收 download_many 函数 的 其 他 实现 。 


Ee 
GE 


~ Kenneth Reitz 开发 的 requests 库 可 通过 PyPI 安装 ， 比 Python 3 
标准 库 中 的 urllib.request 模块 更 易于 使 用 。 其 实 ，reduests # 
提供 的 API 更 符合 Python 的 习惯 用 法 ， 而 且 与 Python 2.6 及 以 上 版 本 兼 
容 。 因 为 Python 2 中 删除 了 urllib2, Python3 又 使 用 了 其 他 名 称 ， 

所 以 不 管 使 用 哪 一 版 Python， 使 用 requests 库 都 更 方便 。 


flags.py 脚本 中 没有 什么 新 知识 ， 只 是 与 其 他 脚本 对 比 的 基准 ， 而 且 我 把 它 


作为 一 个 库 使 用 ， 避 免 实 现 其 他 脚本 时 重复 编写 代码 。 下 面 分 析 使 用 
concurrent .futures 模块 重新 实现 的 版 本 。 


17.1.2 使 用 concurrent .futures 模 块 下载 


concurrent .futures 模块 的 主要 特色 是 ThreadPoolExecutor 和 
ProcessPoolExecutor 类 ， 这 两 个 类 实现 的 接口 能 分 别 在 不 同 的 线程 或 
进程 中 执行 可 调用 的 对 象 。 这 两 个 类 在 内 部 维护 着 一 个 工作 线程 或 进程 池 ， 
以 及 要 执行 的 任务 队列 。 不 过 ， 这 个 接口 抽象 的 层级 很 高 ， 像 下 载 国 旗 这 种 
简单 的 案例 ， 无 需 关 心 任 何 实现 细节 。 


示例 17-3 展示 如 何 使 用 ThreadPoolExecutor .map 方法 ， 以 最 简单 的 方 
式 实现 并 发 下 载 。 


示例 17-3 flags_threadpool.py: 使 用 
futures .ThreadPoolExecutor 类 实现 多 线程 下 载 的 脚本 


from concurrent import futures 
from flags import save_flag, get_flag, show, main @ 


MAX_WORKERS = 20 @ 


def download_one(cc): © 
image = get_flag(cc) 
show(cc) 
save_flag(image, cc.lower() + '.gif') 
return cc 


download_many(cc_list): 

workers = min(MAX_WORKERS, len(cc_list)) ©@ 

with futures. ThreadPoolExecutor(workers) as executor: © 
res = executor.map(download_one, sorted(cc_list)) © 


return len(list(res)) @ 


if _name__ == '__main_': 
main(download_many) © 


@ =H flags 模块 ( 见 示例 17-2) 中 的 几 个 函数 。 
@ 设 定 ThreadPoolExecutor 类 最 多 使 用 几 个 线程 。 
© 下 载 一 个 图 像 的 函数 ; 这 是 在 各 个 线程 中 执行 的 函数 。 


O 设 定 工作 的 线程 数量 ; 使 用 允许 的 最 大 值 (MAX_WORKERS) 与 要 处 理 的 
数量 之 间 较 小 的 那个 值 ， 以 免 创建 多 余 的 线程 。 


© 使 用 工作 的 线程 数 实例 化 ThreadPoolExecutor 类 ; 
executor. exit _ 方法 会 调用 executor .shutdown(wait=True) 


方法 ， 它 会 在 所 有 线程 都 执行 完毕 前 阻塞 线程 。 


© map 方法 的 作用 与 内 置 的 map 函数 类 似 ， Ta download_one WASE 
多 个 线程 中 并 发 调用 ;，map 方法 返回 一 个 生成 器 ， 因 此 可 以 迭代 ， 获 取 各 个 
函数 返回 的 值 。 


@ 返回 获取 的 结 末 数量 ， 如 末 有 线程 抛 出 异常 ， 异 党 会 在 这 里 抛 出 ， 这 与 隐 
式 调 用 next ( ) 函数 从 大 代 絮 中 获取 相应 的 返回 值 一 样 。 


© 调用 flags 模块 中 的 main Hay, fA download_many 函数 的 增强 
版 。 


注意 ， 示 例 17-3 中 的 download_one 函数 其 实 是 示例 17-2 中 
download_many 函数 的 for 循环 体 。 编 写 并 发 代码 时 经 常 这 样 重 构 : 把 
依 序 执行 的 for 循环 体 改 成 函数 ， 以 便 并 发 调用 。 


我 们 用 的 库 叫 concurrent .futures， 可 是 在 示例 17-3 中 没有 见 到 期 
物 ， 因 此 你 可 能 想 知 道 期 物 在 哪里 。 下 一 节 会 解答 这 个 问题 。 


17.1.3 ”期 物 在 哪里 


期 物 是 concurrent.futures 模块 和 asyncio 包 的 重要 组 件 ， 可 是 ， 作 
为 这 两 个 库 的 用 户 ， 我 们 有 时 却 见 不 到 期 物 。 示 例 17-3 在 背后 用 到 了 期 物 ， 
aie 写 的 代码 没有 直接 使 用 。 这 一 节 概 述 期 物 ， 还 会 举 一 个 例子 ， 展 示 
e 


从 Python 3.4 起 ， 标 准 库 中 有 两 个 名 为 Future 的 类 : 

concurrent .futures,.Future 和 asyncio.Future。 这 两 个 类 的 作用 
相同 : 两 个 Future 类 的 实例 都 表示 可 能 已 经 完成 或 者 尚未 完成 的 延迟 计 
算 。 这 与 Twisted 引擎 中 的 Deferred 类 、Tornado 框架 中 的 Future 类 ， 
LRA JavaScript 库 中 的 Promise 对 象 类 似 。 


期 物 封装 竺 完成 的 操作 ， 可 以 放 入 队列 ， 完 成 的 状态 可 以 查询 ， 得 到 结 采 
(或 抛 出 异常 ) 后 可 以 获取 结果 (或 异常 。 


我 们 要 记 住 一 件 事 : 通常 情况 下 自己 不 应 该 创建 期 物 ， 而 只 能 由 并 发 框架 
(concurrent.futures 或 asyncio) 实例 化 。 原 因 很 简单 :期 物 表 示 
终 将 发 生 的 事情 ， 而 确定 某 件 事 会 发 生 的 唯一 方式 是 执行 的 时 间 已 经 排 定 。 


因此 ， 只 有 排 定 把 某 件 事 交 给 concurrent .futures .Executor 子 类 处 
理 时 ， 才 会 创建 concurrent.futures.Future 实例 。 例 如 ， 
Executor.submit() 方法 的 参数 是 一 个 可 调用 的 对 象 ， 调 用 这 个 方法 后 
会 为 传 入 的 可 调用 对 象 排 期 ， 并 返回 一 个 期 物 。 


客户 端 代码 不 应 该 改变 期 物 的 状态 ， 并 发 框架 在 期 物 表 示 的 延迟 计算 结束 后 
会 改变 期 物 的 状态 ， 而 我 们 无 法 控制 计算 何 时 结束 。 


这 两 种 期 物 都 有 .done( ) 方法 ， 这 个 方法 不 阻塞 ， 返回 值 是 布尔 值 ， 指 明 
期 物 链接 的 可 调用 对 象 是 否 已 经 执行 。 客 户 端 代码 通常 不 会 询问 期 物 是 否 运 
行 结束 ， 而 是 会 等 待 通知 。 因 此， 两 个 Future 类 都 有 
.add_done_callback() 方法 : 这 个 方法 只 有 一 个 参数 ， 类 型 是 可 调用 的 
对 象 ， 期 物 运 行 结 束 后 会 调用 指定 的 可 调用 对 象 。 


此 外 ， 还 有 .result( ) 方法 。 在 期 物 运行 结束 后 调用 的 话 ， 这 个 方法 在 两 
个 Future 类 中 的 作用 相同 : 返回 可 调用 对 象 的 结果 ， 或 者 重新 抛 出 执行 可 
调用 的 对 象 时 抛 出 的 异常 。 可 是 ， 如 果 期 物 没 有 运行 结束 ，result 方法 在 
两 个 Future 类 中 的 行为 相差 很 大 。 对 concurrency .futures.Future 
实例 来 说 ， 调 用 f,result() 方法 会 阻塞 调用 方 所 在 的 线程 ， 直 到 有 结果 

可 返回 。 此 时 ，result 方法 可 以 接收 可 选 的 timeout 参数 ， 如 有 果 在 指定 

的 时 间 内 期 物 没 有 运行 完毕 ， 会 抛 出 TimeoutError 异常 。 读 到 18.1.1 7 

你 会 发 现 ，asyncio.Future.result 方法 不 支持 设 定 超时 时 间 ， 在 那个 
库 中 获取 期 物 的 结果 最 好 使 用 yield from 结构 。 不 过 ， 对 


concurrency. futures .Future 实例 不 能 这 么 做 。 


这 两 个 库 中 有 几 个 函数 会 返回 期 物 ， 其 他 函数 则 使 用 期 物 ， 以 用 户 易于 理解 
的 方式 实现 自身 。 使 用 17-3 中 的 Executor .map 方法 属于 后 者 : 返回 值 是 
一 个 迭代 器 ， 和 迭代 器 的 __next_ ”方法 调用 各 个 期 物 的 result 方法 ， 
此 我 们 得 到 的 是 各 个 期 物 的 结果 ， 而 非 期 物 本 身 。 


为 了 从 实用 的 角度 理解 期 物 ， 我 们 可 以 使 用 
concurrent .futures.as_completed 函数 重 写 示 例 17-3。 这 个 函数 的 
参数 是 一 个 期 物 列表 ， 返 回 值 是 一 个 迭代 器 ， 在 期 物 运行 结束 后 产 出 期 物 。 


为 了 使 用 futures.as_completed 画 数 ， 只 需 修改 download_many & 
数 ， 把 较 抽 象 的 executor .map 调用 换 成 两 个 for 循环 : 一 个 用 于 创建 并 
排 定期 物 ， 另 一 个 用 于 获取 期 物 的 结果 。 同 时 ， 我 们 会 添加 几 个 print 调 

用 ， 显 示 运 行 结束 前 后 的 期 物 。 修 改 后 的 download_many 函数 如 示例 17- 
4， 代 码 行 数 由 5 变 成 17， 不 过 现在 我 们 能 一 条 神 秘 的 期 物 了 。 其 他 函数 不 
变 ， 与 示例 17-3 中 的 一 样 。 


示例 17-4 flags_threadpool_ac.py: #2download_many 函数 中 的 
executor.map 方法 换 成 executor .submit 方法 和 
futures.as_completed 函数 


def download_many(cc_list): 
cc_list = cc_list[:5] @ 
with futures.ThreadPoolExecutor(max_workers=3) as executor: © 
to_do = [] 
for cc in sorted(cc_list): © 
future = executor.submit(download_one, 
to_do.append(future) © 
msg = ‘Scheduled for {}: {}' 
print(msg.format(cc, future)) © 


results = [] 

for future in futures.as_completed(to_do): 
res = future.result() 日 
msg = '{} result: {!r}' 
print(msg.format(future, res)) © 
results.append(res) 


return len(results) 


这 次 演示 只 使 用 人 口 最 多 的 5 个 国家 。 
@ 把 max_workers 便 编 码 为 3， 以 便 在 输出 中 观察 待 完 成 的 期 物 。 
© 按照 字母 表 顺 序 迭 代 国 家 代码 ， 明 确 表明 输出 的 顺序 与 输入 一 致 。 


© executor .submit 方法 排 定 可 调用 对 象 的 执行 时 间 ， 然 后 返回 一 个 期 
物 ， 表 示 这 个 待 执 行 的 操作 。 


O 存储 各 个 期 物 ， 后 面 传 给 as_completed KEY - 
O 显示 一 个 消息 ， 包 含 国家 代码 和 对 应 的 期 物 。 

© as_completed 函数 在 期 物 运行 结束 后 产 出 期 物 。 
@ 获取 该 期 物 的 结果 。 

O 显示 期 物 及 其 结果 。 


注意 ， 在 这 个 示例 中 调用 future.result( ) 方法 绝 不 会 阻塞 ， 因 为 
future 由 as_completed 函数 产 出 。 运 行 示例 17-4 得 到 的 输出 如 示例 


17-5 所 示 。 
示例 17-5 flags_threadpool_ac.py 脚本 的 输出 


$ python3 flags_threadpool_ac.py 

Scheduled for : <Future at 0x100791518 state=running> @ 

Scheduled for : <Future at 0x100791710 state=running> 

Scheduled for : <Future at 0x100791a90 state=running> 

Scheduled for : <Future at 0x101807080 state=pending> @ 

Scheduled for : <Future at ©x101807128 state=pending> 

CN <Future at 0x100791710 state=finished returned str> result: 'CN' © 
BR ID <Future at 0x100791518 state=finished returned str> result: 'BR' @ 
<Future at 0x100791a90 state=finished returned str> result: 'ID' 

IN <Future at 0x101807080 state=finished returned str> result: 'IN' 
US <Future at 0x101807128 state=finished returned str> result: 'US' 


5 flags downloaded in 0.70s 


O 排 定 的 期 物 按 字母 表 排 序 ， 期 物 的 repr() 方法 会 显示 期 物 的 状态 : 前 三 
个 期 物 的 状态 是 running， 因 为 有 三 个 工作 的 线程 。 


o 后 两 个 期 物 的 状态 是 pending， 等 待 有 线程 可 用 。 


© 这 一 行 里 的 第 一 个 CN 是 运行 在 一 个 工作 线程 中 的 download_one 函数 
输出 的 ， 随 后 的 内 容 是 download_many 函数 输出 的 。 


O 这 里 有 两 个 线程 输出 国家 代码 ， 然 后 主线 程 中 的 download_many ax 
输出 第 一 个 线程 的 结果 。 


` 多 次 运行 flags_threadpool_ac.py 脚本 ， 看 到 的 结果 有 所 不 同 。 如 
RJE max_workers 参数 的 值 增 大 到 5， 结 果 的 顺序 变化 更 多 。 把 
max_workers 参数 的 值 设 为 1， 代码 依 序 运行 ， 结 果 的 顺序 始终 与 调 
FA submit 方法 的 顺序 一 致 。 


我 们 分 析 了 两 个 版 本 的 使 用 Concurrent. futures 库 实 现 的 下 载 脚 本 : 使 
FA ThreadPoolExecutor.map 方法 的 示例 17-3 和 使 用 
futures.as_completed 函数 的 示例 17-4。 如 采 你 对 flags_asyncio.py 脚 
本 的 代码 好 奇 ， 可 以 看 一 眼 第 18 章 中 的 示例 18-5。 


严格 来 说 ， 我 们 目前 测试 的 并 发 脚本 都 不 能 并 行 下 载 。 使 用 
concurrent. futures 库 实现 的 那 两 个 示例 受 GIL (Global Interpreter 
Lock， 全 局 解释 器 锁 ) 的 限制 ， 而 flags_asyncio.py 脚本 在 单个 线程 中 运行 。 


读 到 这 里 ， 你 可 能 会 对 前 面 做 的 非 正 规 基准 测试 有 下 述 疑 问 。 


。 既然 Python 线程 党 GIL 的 限制 ， 任 何 时 候 都 只 允许 运行 一 个 线程 ， 那 
么 flags_threadpool.py 脚本 的 下 载 速度 怎么 会 比 flags.py 脚本 快 5 倍 ? 


。 flags_asyncio.py 脚本 和 flags.py 脚本 都 在 单个 线程 中 运行 ， 前 者 怎么 会 
比 后 者 快 5 倍 ? 


第 二 个 问题 在 18.3 节 解 答 。 


GIL 几乎 对 VO 密集 型 处 理 无 害 ， 原 因 参 见 下 一 节 。 


17.2 ”阻塞 型 TO 和 GIL 


CPython 解释 器 本 身 就 不 是 线程 安全 的 ， 因 此 有 全 局 解释 需 锁 (GIL) ,一 
次 只 允许 使 用 一 个 线程 执行 Python FPA ° Ath, —~*S Python 进程 通常 不 
能 同时 使 用 多 个 CPU 核心 。5 


5 这 是 C CPython 解释 器 的 局 限 ， 与 Python WARAK ° Jython 和 IronPython 没有 这 种 限制 。 不 过 ， 
目前 最 快 的 Python 解释 器 PyPy 也 有 GIL ° 


编写 Python 代码 时 无 法 控制 GIL; 不 过 ， 执 行 耗 时 的 任务 时 ， 可 以 使 用 一 个 
内 置 的 函数 或 一 个 使 用 C 语言 编写 的 扩展 释放 GIL。 其 实 ， 有 个 使 用 C 语言 
编写 的 Python 库 能 管理 GIL， 自 行 启动 操作 系统 线程 ， 利 用 全 部 可 用 的 
CPU 核心 。 这样 做 会 极 大 地 增加 库 代 码 的 复杂 度 ， 因 此 大 多 数 库 的 作者 都 不 
这 人 么 做 。 

然而 ， 标 准 库 中 所 有 执行 阻塞 型 IO 操作 的 函数 ， 在 等 等 操 作 系统 返 回 结果 
时 都 会 释放 GIL。 这 意味 着 在 Python 语言 这 个 层次 上 可 以 使 用 多 线程 ， 而 
VO 密集 型 Python 程序 能 从 中 受益 : 一 个 Python 线程 等 待 网 络 啊 应 时 ， 阻 塞 
型 IO 函数 会 释放 GIL ， 再 运行 一 个 线程 。 

因此 David Beazley 才 说 : “Python 224222 AFH ° ”6 


6 


H É “Generators: The Final Frontier”, #8 106 张 幻灯 片 。 


cc 


~I Python 标准 库 中 的 所 有 阻塞 型 VO KAA ARE GIL， 人 允许 其 他 
线程 运行 。time.sleep() 函数 也 会 释放 GIL。 因 此 ， 尽 管 有 GIL, 
Python 线程 还 是 能 在 IO 密集 型 应 用 中 发 挥 作 用 。 


下 面 简单 说 明 如 何在 CPU 密集 型 作业 中 使 用 concurrent .futures 模块 
轻松 绕 开 GIL © 


17.3 ”使 用 concurrent .futures 模 块 启动 进程 


concurrent .futures 模块 的 文档 副标题 是 “Launching parallel tasks” ( 执 
行 并 行 任务 ) 。 这 个 模块 实现 的 是 真正 的 并 行 计算 ， 因 为 它 使 用 
ProcessPoolExecutor 类 把 工作 分 配给 多 个 Python 进程 处 理 。 因 此 ， 如 
CPU 密集 型 处 理 ， 使 用 这 个 模块 能 绕 开 GIL， 利 用 所 有 可 用 的 
CPU 核心 。 


ProcessPoolExecutor 和 ThreadPoolExecutor 类 都 实现 了 通用 的 
Executor 接口 ， 因 此 使 用 concurrent.futures 模块 能 特别 轻松 地 把 
基于 线程 的 方案 转 成 基于 进程 的 方案 。 


下 载 国旗 的 示例 或 其 他 IO 密集 型 作业 使 用 ProcessPoolExecutor 类 得 
不 到 任何 好 处 。 这 一 点 易于 验证 ， 只 需 把 示例 17-3 中 下 面 这 几 行 : 


def download_many(cc_list): 
workers = min(MAX_WORKERS, len(cc_list)) 


with futures.ThreadPoolExecutor(workers) as executor: 


改 成 : 


def download_many(cc_list): 
with futures.ProcessPoolExecutor() as executor: 


对 简单 的 用 途 来 说 ， 这 两 个 实现 Executor 接口 的 类 唯一 值得 注意 的 区 别 
是 ，ThreadPoolExecutor. init _ 方法 需要 max_workers 参数 ， 

站 定 线程 池 中 线程 的 数量 。 在 ProcessPoolExecutor 类 中 ， 那 个 参数 是 
可 选 的 ， 而 且 大 多 数 情况 下 不 使 用 一 一 默认 值 是 0s .cpu_count() 函数 返 
回 的 CPU 数量 。 这 样 处 理 说 得 通 ， 因 为 对 CPU 密集 型 的 处 理 来 说 ， 不 可 能 
要 求 使 用 超过 CPU 数量 的 职 程 。 而 对 IO 密集 型 处 理 来 说 ， 可 以 在 一 个 
ThreadPoolExecutor 实例 中 使 用 10 个 、100 个 或 1000 个 线程 ， 最 佳 线 
程 数 取决 于 做 的 是 什么 事 ， 以 及 可 用 内 存 有 多 少 ， 因 此 要 仔细 测试 才能 找到 
最 佳 的 线程 数 。 


经 过 几 次 测试 ， 我 发 现 使 用 ProcessPoo1lExecutor 实例 下 载 20 MEJE 
的 时 间 增 加 到 了 1.8 秒 ， 而 原来 使 用 ThreadPoo1LExecutor 的 版 本 是 1.4 


秒 。 主 要 原因 可 能 是 ， 我 的 电脑 用 的 是 四 核 CPU， 因 此 限制 只 能 有 4 个 并 发 
下 载 ， 而 使 用 线程 池 的 版 本 有 20 个 工作 的 线程 。 


ProcessPoolExecutor 的 价值 体现 在 CPU 密集 型 作业 上 。 我 用 两 个 CPU 
密集 型 脚本 做 了 一 些 性 能 测试 。 


arcfour_futures.py 


这 个 脚本 (代码 清单 参见 示例 A-7) 纯粹 使 用 Python 实现 RC4 算法 。 
我 加 密 并 人 解密 了 12 CFTR, K/M 149KB 到 384KB AF © 


sha_futures.py 


这 个 脚本 (代码 清单 参见 示例 A-9) 使 用 标准 库 中 的 hashlib 模块 
(使 用 OpenSSL 库 实现 ) 实现 SHA-256 算法 。 我 计算 了 12 个 1MB 字 节 数 
组 的 SHA-256 散 列 值 。 


这 两 个 脚本 除了 显示 汇总 结 采 之 外 ， 没 有 使 用 WO。 构建 和 处 理 数据 的 过 程 
都 在 内 存 中 完成 ， 因 此 IO 对 执行 时 间 没 有 影响 。 


我 运行 了 64 次 RC4 示例 ，48 次 SHA 示例 ， 平 均 时 间 如 表 17-1 所 示 。 统 计 
的 时 间 中 包含 派生 工作 进程 的 时 间 。 


表 17-1: 在 配 有 Intel Core i7 2.7 GHz 四 核 CPU 的 设备 中 ， 使 用 Python 3.4 运 
行 RC4 和 SHA 示例 ， 分 别 使 用 1~4 个 职 程 得 到 的 时 间 和 提速 倍数 


人 eae pa a A B al 
G 间 


可 以 看 出 ， 对 加 密 算 法 来 说 ， 使 用 ProcessPoo1LExecutor 类 派生 4 个 工 
作 的 进程 后 (如 果 有 4 个 CPU 核心 的 话 ) ， 人 性 能 可 以 提高 两 倍 。 


对 那个 纯粹 使 用 Python 实现 的 RC4 示例 来 说 ， 如 果 使 用 PyPy 和 4 个 职 程 ， 
与 使 用 CPython 和 4 个 职 程 相 比 ， 速 度 能 提高 3.8 倍 。 以 表 17-1 中 使 用 
CPython 和 一 个 职 程 的 运行 时 间 为 基准 ， 速 度 提 升 了 7.8 倍 。 


和 如 果 使 用 Python 处 理 CPU 密集 型 工作 ， 应 该 试 试 PyPy。 使 用 
PyPy 运行 arcfour_futures.py 脚本 ， 速 度 快 了 3.8~5.1 倍 ; 具体 的 倍数 由 
职 程 的 数量 决定 。 我 测试 时 使 用 的 是 PyPy 2.4.0， 这 一 版 与 Python 3.2.5 
兼容 ， 因 此 标准 库 中 有 concurrent .futures 模块 。 


下 面 通过 一 个 演示 程 / 子 来 研究 线程 池 的 1 了 为 。 这 个 程序 会 创建 一 个 包含 3 个 
职 程 的 线程 池 ， 运 行 5 个 可 调用 的 对 象 ， 输 出 带 有 时 间 戳 的 消息 。 


17.4 ”实验 Executor .map 方 法 


若 想 并 发 运行 多 个 可 调用 的 对 象 ， 最 简单 的 方式 是 使 用 示例 17-3 中 见 过 的 
Executor .map 方法 。 示 例 17-6 中 的 脚本 演示 了 Executor ,map 方法 的 
某 些 运作 细 方 。 这 个 脚本 的 输出 在 示例 17-7 中 。 


示例 17-6 demo_executor_map.py: 简单 演示 ThreadPoolExecutor 
类 的 map 方法 


from time import sleep, strftime 
from concurrent import futures 


def display(*args): @ 
print(strftime('[%H:%M:%S]'), end=' ') 
print(*args) 


def loiter(n): @ 
msg = '{}loiter({}): doing nothing for {}s...' 
display(msg.format('\t'*n, n, n)) 
sleep(n) 
msg = '{}loiter({}): done.' 
display(msg.format('\t'*n, n)) 
return n * 10 © 


def main(): 
display('Script starting.') 
executor = futures. ThreadPoolExecutor(max_workers=3) @ 


results = executor.map(loiter, range(5)) © 

display('results:', results) © 

display('Waiting for individual results:') 

for i, result in enumerate(results): @ 
display('result {}: {}'.format(i, result) ) 


main() 


@ 这 个 函数 的 作用 很 简单 ， 把 传 入 的 参数 打印 出 来 ， 并 在 前 面 加 上 


[HH:MM:SS] 格式 的 时 间 惟 。 


@ loiter 函数 什么 也 没 做 ， NEEN RN E 个 消息 ， 然 后 休眠 了 秒 ， 
最 后 在 结束 时 再 显示 一 个 消 轧 ; 消 轧 使 用 制 表 符 缩 进 ， 缩 进 的 量 由 的 值 确 
十 o 


© loiter Mul n * 10， 以 便 让 我 们 了 解 收 集结 果 的 方式 。 
@ 创建 ThreadPoolExecutor 实例 ， 有 3 个 线程 。 


O 把 五 个 任务 提交 给 executor 《因为 只 有 3 个 线程 ， 所 以 只 有 3 个 任务 会 
立即 开始 : loiter(0)、loiter(1) 和 loiter(2)) ; 这 是 非 阻 塞 调 
用 。 


O 立即 显示 调用 executor .map 方法 的 结果 : 一 个 生成 器 ， 如 示例 17-7 中 
的 输出 所 示 。 


@ for 循环 中 的 enumerate 函数 会 隐 式 调用 next(results )， 这 个 函数 
又 会 在 (内 部 ) 表示 第 一 个 任务 (loiter(0)) 的 _f 期 物 上 调用 
_f.result() 方法 。result 方法 会 阻塞 ， 直 到 期 物 运行 结束 ， 因 此 这 个 
下 环 每 次 迭代 时 都 要 等 待 下 一 个 结果 做 好 准备 。 


我 建议 你 运行 示例 17-6， 看 着 结果 逐渐 显示 出 来 。 此 外 ， 还 可 以 修改 
ThreadPoolExecutor 构造 方法 的 max_workers 参数 ， 以 及 
executor.map 方法 中 range 函数 的 参数 ; 或 者 自己 挑选 儿 个 值 ， 以 列表 
的 形式 传 给 map 方法 ， 得 到 不 同 的 延迟 。 


一 一 一 


示例 17-7 是 运行 示例 17-6 得 到 的 输出 示例 。 


im 


示例 17-7 示例 17-6 中 demo_executor_map.py 脚本 的 运行 示例 


$ python3 demo_executor_map.py 

Script starting. @ 

loiter(@): doing nothing for Os... @ 
loiter(@®): done. 


[15:56: 


[15:56 


[15:56: 
[15:56: 
56: 
56: 
56: 


:56 


:56 : 
:56 : 
:56 : 


:56: 
:56 
:56: 
:56: 
:56: 
:56: 
:56: 


50] 
:50] 
50] 
50] 
50] 
50] 
50] 
:50] 
50] 
51] 
51] 


51] 
:52] 
52] 
53] 
53] 
55] 


loiter(1): doing nothing for is... © 
loiter(2): doing nothing for 2s... 


results: <generator object result_iterator at 0x106517168> @ 


loiter(3): doing nothing for 3s... © 


Waiting for individual results: 
result 0: 0 © 


loiter(1): done. @ 
loiter(4): doing nothing for 


result 1: 10 © 


loiter(2): done. © 


result 2: 20 


loiter(3): done. 


result 3: 30 


loiter(4): done. 四 


result 4: 40 


@ 这 次 运行 从 15:56:50 开始 。 


@ 第 一 个 线程 执行 loiter (0)， 因 此 休眠 0 秒 ， 甚 至 会 在 第 二 个 线程 开始 


之 前 就 结束 ， 不 过 具体 情况 因 人 而 异 。” 


“具体 人 


Python 


况 因 人 而 异 : 对 线程 来 说 ， 你 永远 不 知道 某 一 时 刻 事 件 的 具体 排序 ， 有 可 能 在 另 一 台 设备 中 
会 看 到 loiter(1) Æ loiter(0) 结束 之 前 开始 ， 这 是 因为 sleep 函数 总 会 释放 GIL。 因 此 ， 即 
使 休 眼 0 BD, 


岂可 能 会 切换 到 另 一 个 线程 。 


© loiter(1) 和 loiter(2) 立即 开始 (因为 线程 池 中 有 三 个 职 程 ， 可 以 
并 发 运行 三 个 函数 ) 。 


@ 这 一 行 表明 ，executor .map 方法 返回 的 结果 (results) 是 生成 器 ; 
不 管 有 多 少 任 务 ， 也 不 管 max_workers 的 值 是 多 少 ， 目 前 不 会 阻塞 。 


© loiter(0) 运行 结束 了 ， 第 一 个 职 程 可 以 局 动 第 四 个 线程 ， 运 行 
loiter(3) ° 


O 此 时 执行 过 程 可 能 阻塞 ,具体 情况 取决 于 传 给 loiter 函数 的 参数 : 
results 生成 器 的 _next_ ”方法 必须 等 到 第 一 个 期 物 运行 结束 。 此 时 不 
会 阻塞 ， 因 为 1oiter(0) 在 循环 开始 前 结束 。 注 意 ， 这 一 点 之 前 的 所 有 事 
件 都 在 同一 刻 发 生 一 一 15:56:50。 


@ 一 秒 钟 后 ， 即 15:56:51, loiter(1) 运行 完毕 。 这 个 线程 用 置 ， 可 以 开 
台 运行 loiter(4) ° 


© 显示 loiter(1) 的 结果 : 10。 现 在 ，for 循环 会 阻塞 ， 等 待 
loiter(2) 的 结果 。 


© 同上 : loiter(2) 运行 结束 ， 显 示 结 果 ; loiter(3) 也 一 样 。 


© 2 秒 钟 后 1oiter(4) 运行 结束 ， 因 为 1oiter(4) Æ 15:56:51 时 开始 ， 
休眠 了 4 秒 。 


Executor.map 函数 易于 使 用 ， 不 过 有 个 特性 可 能 有 用 ， 也 可 能 没 用 ， 具 
体 情况 取决 于 需求 : 这 个 函数 返回 结果 的 顺序 与 调用 开始 的 顺序 一 致 。 如 果 
第 一 个 调用 生成 结果 用 时 10 秒 ， 而 其 他 调用 只 用 工 秒 ， 代 码 会 阻塞 10 秒 ， 
获取 map 方法 返回 的 生成 顺产 出 的 第 一 个 结果 。 在 此 之 后 ， 获 取 后 续 结 果 时 

`\ 会 阻塞 ， 因 为 后 续 的 调用 已 经 结束 。 如 果 必 须 等 到 获取 所 有 结果 后 再 处 
理 ， 这 种 行为 没 问 题 ; 不 过 ， 通 常 更 可 取 的 方式 是 ， 不 管 提交 的 顺序 ， 只 要 
有 结果 就 获取 。 为 此 ， 要 把 Executor.submit 方法 和 
futures.as_completed 函数 结合 起 来 使 用 ， 像 示例 17-4 中 那样 。17.5.2 
节 会 继续 讨论 这 种 方式 。 


U 


AI executor .submit 和 futures.as_completed 这 个 组 合 比 
executor ,map 更 灵活 ， 因 为 submit 方法 能 处 理 不 同 的 可 调用 对 象 
和 人 参数， 而 executor.map 只 能 处 理 参数 不 同 的 同一 个 可 调用 对 象 。 
此 外 ， 传 给 futures.as_completed 函数 的 期 物 集合 可 以 来 自 多 个 
Executor 实例 ， 例 如 一 些 由 ThreadPoolExecutor 实例 创建 ， 另 
一 些 由 ProcessPo0olExecutor 实例 创建 。 


下 一 节 根 据 新 的 需求 继续 实现 下 载 国旗 的 示例 ， 这 一 次 不 使 用 
executor.map 方法 ， 而 是 迭代 futures.as_completed 函数 返回 的 结 
果 (07 


175 “显示 下 载 进 度 并 处 理 错误 


前 面 说 过 ，17.1 市 中 的 几 个 脚本 没有 处 理 错误 ， 这 样 做 古 为 了 便于 阅读 和 比 
较 三 种 方案 ( 依 序 、 多 线程 和 异步 ， 的 结构 。 


为 了 处 理 各 种 错误 ， 我 创建 了 flags2 系列 示例 。 


flags2_common.py 


这 个 模块 中 包含 所 有 flags2 示例 通用 的 函数 和 设置 ， 例 如 main K 
数 ， 负 责 解析 命令 行 参数 、 计 时 和 报告 结果 。 这 个 脚本 中 的 代码 其 实 是 提供 
meee 与 本 章 的 话题 没有 直接 关系 ， 因 此 我 把 源码 放 在 附录 A 里 的 示例 
A-10 o 


flags2_sequential.py 


能 正确 处 理 错误 ， 以 及 显示 进度 条 的 HTTP 依 序 下 载 客 户 端 。 
flags2_threadpool.py 脚本 会 用 到 这 个 模块 里 的 download_one 函数 。 


flags2_threadpool.py 


基于 futures. ThreadPoolExecutor 类 实现 的 HTTP 并 发 客户 端 ， 
演示 如 何 处 理 错误 ， 以 及 集成 进度 条 。 


flags2_asyncio.py 


与 前 一 个 脚本 的 作用 相同 ， 不 过 使 用 asyncio 和 aiohttp 实现 。 这 
个 脚本 在 第 18 章 的 18.4 节 中 分 析 。 


Be 测试 并 发 客户 端 时 要 小 心 


在 公开 的 HTTP 服务 器 上 测试 HTTP 并 发 客户 端 时 要 小 心 ， 因 为 每 秒 可 
能 会 发 起 很 多 请 求 ， 这 相当 于 是 拒绝 服务 (DoS) 攻击 。 我 们 不 想 攻击 
任何 人 ， 只 是 在 学 习 如 何 开发 高 性 能 的 客户 端 。 访 问 公开 的 服务 器 时 一 
定 要 管 好 自己 的 客户 端 。 做 高 并 发 试验 时 ， 应 该 在 本 地 架设 HTTP 服务 
器 供 测 试 。 本 书 代 码 仓 库 中 的 17-futures/countries/ 目录 里 有 个 
README.rst 文件 ， 那 里 有 架设 说 明 。 


flags2 系列 示例 最 明显 的 特色 是 ， 有 使 用 TQDM 包 实 现 的 文本 动画 进度 
条 。 我 在 YouTube 上 发 布 了 一 个 108 秒 的 视频 ， 展 示 了 这 个 进度 条 ， 还 对 比 
T= flags 脚本 的 下 载 速度 。 在 那个 视频 中 ， 我 先 运行 依 序 下 载 的 脚 
本 ， 不 过 32 秒 后 中 断 了 ， 因 为 那个 脚本 要 用 5 分 多 钟 访 问 676 个 URL， 下 
载 194 MEDE; 然后 ， 我 分 别 运 行 多 线程 和 asyncio 版 三 次 ， 每 次 都 在 6 
秒 之 内 ( 即 快 了 60 多 倍 ) 完成 任务 。 图 17-1 中 有 两 个 截图 ， 分 别 是 
flags2_threadpool.py 脚本 运行 中 和 运行 结束 后 。 


图 17-1: (4) flags2_threadpool.py 运行 中 ， 显 示 着 tqdm 包 生 成 的 进度 
条 ; CAP) 同一 个 终端 窗口 ， 脚 本 运行 完毕 后 


TQDM 包 特 别 易 于 使 用 ， 项 目的 README.md 文件 中 有 个 GIF 动画 ， 演 示 
了 最 简单 的 用 法 。 安 装 tqdm 包 之 后 ，8 在 Python 控制 台中 输入 下 述 代码 ， 
会 在 注释 那里 看 到 进度 条 动画 : 


8 可 以 使 用 pip install tqdm 命令 安装 tqdm 包 。 一 一 编者 注 


>>> import time 

>>> from tqdm import tqdm 

>>> for i in tqdm(range(1000) ): 
T time.sleep(.01) 


>>> # -> 进度 条 会 出 现在 这 


除了 这 个 灵巧 的 效果 之 外 ，tqdm 函数 的 实现 方式 也 很 有 趣 : 能 处 理 任何 可 
迭代 的 对 象 ， 生 成 一 个 迭代 器 ;使 用 这 个 迭代 器 上 时， 显示 进度 条 和 完成 全 部 
和 欠 代 预计 的 剩余 时 间 。 为 了 计算 预计 剩余 时 间 ，tqdm 函数 要 获取 一 个 能 使 
用 len 画 数 确定 大 小 的 可 迭代 对 象 ， 或 者 在 第 二 个 参数 中 指定 预期 的 元 素数 
量 。 借 助 在 flags2 系列 示例 中 集成 TQDM， 我 们 可 以 深入 了 解 这 几 个 脚本 
的 运作 方式 ， 因 为 我 们 必须 使 用 futures .as_completed 函数 和 
asyncio.as_completed 函数 ， 这 样 tqdm 画 数 才能 在 每 个 期 物 运行 结束 
后 更 新 进度 。 


flags2 系列 示例 的 男 一 个 特色 是 ， 提 供 了 命令 行 接口 。 三 个 脚本 接受 的 选 
项 相同 ， 运 行 任意 一 个 脚本 时 指定 -h 选项 就 能 看 到 所 有 选项 。 示 例 17-8 显 
示 的 是 帮助 文本 。 


示例 17-8 flags2 系列 脚本 的 帮助 界面 


$ python3 flags2_threadpool.py -h 
usage: flags2_threadpool.py [-h] [-a] [-e] [-1 N] [-m CONCURRENT] [-s 
LABEL] 


[cc [cc ...]] 


Download flags for country codes. Default: top 20 countries by 
population. 


positional arguments: 


CC country code or ist letter (eg. B for BA...BZ) 
optional arguments: 

-h, --help show this help message and exit 

-a, --all get all available flags (AD to Zw) 

-e, --every get flags for every possible code (AA...ZZ) 

-1 N, --limit N limit to N first codes 


-m CONCURRENT, --max_req CONCURRENT 
maximum concurrent requests (default=30) 
-S LABEL, --server LABEL 
Server to hit; one of DELAY, ERROR, LOCAL, 
REMOTE 
(default=LOCAL ) 
-v, --verbose output detailed progress info 


所 有 选项 都 是 可 选 的 。 下 面 说 明 最 重要 的 选项 。 

不 能 忽略 的 选项 是 -S/- -server: 用 于 选择 测试 时 使 用 的 HTTP 服务 器 和 
基 URL。 这 个 选项 的 值 可 以 设 为 下 述 4 个 字符 串 (不 区 分 大 小 写 ) ， 用 于 确 
定 脚 本 从 哪里 下 载 国旗 。 


LOCAL 


使 用 http://localhost:8001/flags; 这 是 默认 值 。 你 应 该 配置 
一 个 本 地 HTTP 服务 器 ， 响 应 8001 端口 的 请 求 。 我 测试 时 使 用 Nginx。 本 章 
示例 代码 中 的 README.rst 文件 说 明了 如 何 安装 和 配置 Nginx 。 


REMOTE 


使 用 http://flupy.org/data/flags; 这 是 我 搭建 的 公开 网 站 ， 
托管 在 一 个 共享 服务 器 中 。 请 不 要 使 用 太 多 并 发 请 求 访 问 这 个 网 站 。 
flupy .org 域名 由 Cloudflare CDN 的 一 个 免费 账户 管理 ， 因 此 第 一 次 下 载 
时 会 发 现 很 慢 ， 不 过 一 旦 CDN 有 了 缓存 ， 速 度 就 会 变 快 。9 


9 测试 这 些 脚本 时 ， 我 各 那个 廉价 的 虚拟 主机 发 起 了 此 发 请 求 ， 但 是 得 到 的 响应 是 “HTTP 503 
errors—Service Temporarily Unavailable”。 后 来 我 配置 了 Cloudflare， 现 在 没有 这 个 错误 了 。 


DELAY 


使 用 http://localhost:8002/flags; 这 是 一 个 代理 ， 会 延迟 
HTTP 响应 ， 监 听 的 端口 是 8002。 我 在 本 地 的 Nginx 服务 器 前 加 上 了 
Mozilla Vaurien， 以 此 引入 延迟 。 前 面 提 到 的 那个 README.rst 文件 中 有 运 
行 Vaurien 代理 的 说 明 。 


ERROR 


使 用 http://localhost:8003/flags; 这 是 一 个 代理 ， 监 听 8003 
端口 ， 引 入 了 HTTP 错误 ， 并 延迟 响应 。 这 个 服务 器 使 用 的 Vaurien 配置 与 
前 面 不 同 。 


By 仅 当 在 本 地 架设 HTTP 服务 器 ， 并 且 监 听 8001 端口 时 ， 才 能 使 
用 LOCAL 选项 。DELAY 和 ERROR Soe 要 代理 ， 分 别 监听 8002 和 
8003 端口 。 在 GitHub 上 本 书 的 代码 仓库 中 有 个 17- 
futures/countries/README.rst 文件 ， 说 明了 如 何 配 置 Nginx 和 Mozilla 
Vaurien， 以 实现 这 些 选 项 的 要 求 。 
默认 情况 下 ， 各 个 Flags2 脚本 会 使 用 玖 认 的 并 发 连接 数 (各 脚本 有 所 不 
同 ) 从 LOCAL 服务 器 中 下 载 人 口 最 多 的 20 个 国家 的 国旗 。 示 例 17-9 是 全 部 
使 用 默认 值 运行 flags2_sequential.py 脚本 得 到 的 输出 。 


示例 17-9 全 部 使 用 默认 值 运行 flags2_sequential.py 脚本 : LOCAL 服务 
as, ADAH 20 EERE, 1 个 并 发 连接 


$ python3 flags2_sequential.py 
LOCAL site: http://localhost:8001/flags 
Searching for 20 flags: from BD to VN 


1 concurrent connection will be used. 


20 flags downloaded. 
Elapsed time: 0.10s 


我 们 可 以 使 用 多 种 不 同 的 方式 选择 下 载 哪 些 国家 的 国旗 。 示 例 17-10 展示 如 
何 下 载 国家 代码 以 字母 A、B 或 C 开头 的 所 有 国旗 。 


HI 


示例 17-10 38747 flags2_threadpool.py 脚本 ， 从 DELAY 服务 器 中 下 载 
家 代码 以 A、B 或 C 开头 的 所 有 国旗 


$ python3 flags2_threadpool.py -s DELAY a bc 
DELAY site: http://localhost:8002/flags 
Searching for 78 flags: from AA to CZ 

30 concurrent connections will be used. 


43 flags downloaded. 
35 not found. 
Elapsed time: 1.72s 


不 管 使 用 什么 方式 选择 国家 代码 ， 下 载 的 国旗 数量 都 可 以 使 用 -1/--1limit 
选项 限制 。 示 例 17-11 演示 如 何 发 起 100 个 请 求 ， 结 合 -a 和 -1 选项 下 载 
100 面 国旗 。 


示例 17-11 运行 flags2_asyncio.py 脚本 ， 使 用 100 个 并 发 请 求 〈-m 
100) 从 ERROR 服务 器 中 下 载 100 面 国旗 (-al 100) 


$ python3 flags2_asyncio.py -s ERROR -al 100 -m 100 
ERROR site: http://localhost :8003/flags 

Searching for 100 flags: from AD to LK 

100 concurrent connections will be used. 


73 flags downloaded. 
27 errors. 
Elapsed time: 0.64s 


以 上 是 flags2 系列 示例 的 用 户 界面 。 下 面 分 析 实 现 方 式 。 


17.5.1 flags2 系 列 示例 处 理 错误 的 方式 


三 个 示例 在 负责 下 载 一 个 文件 的 函数 (download_one) 
RILE HTTP 404 错误 (未 找到 ) -o RANDLE, 22 
download_many 函数 处 理 。 


我 们 还 是 先 分 析 依 序 下 载 的 代码 ， 因 为 这 些 代码 更 易于 理解 ， 而 且 使 用 线程 
池 的 脚本 重用 了 这 里 的 大 部 分 代码 。 示 例 17-12 列 出 的 是 flags2_sequential.py 
All flags2_threadpool.py 脚本 真正 用 于 下 载 的 函数 。 


示例 17-12 flags2 sequential.py: 负责 下 载 的 基本 函数 ; 
flags2_threadpool.py 脚本 重用 了 这 两 个 函数 


def get_flag(base_url, cc): 
url = '{}/{cc}/{cc}.gif'.format(base_url, cc=cc.lower()) 
resp = requests.get(url) 
if resp.status_code != 200: @ 
resp.raise_for_status() 
return resp.content 


download_one(cc, base_url, verbose=False): 
try: 
image = get_flag(base_url, cc) 
except requests.exceptions.HTTPError as exc: @ 
res = exc.response 
if res.status_code == 404: 
status = HTTPStatus.not_found ® 
msg = ‘not found' 
else: ©@ 
raise 
else: 
save_flag(image, cc.lower() + '.gif') 
status = HTTPStatus.ok 
msg = 'OK' 


if verbose: © 
print(cc, msg) 


return Result(status, cc) © 


@ get_flag KHOSA MIR, 4 HTTP 代码 不 是 200 时 ， 使 用 
requests.Response.raise_for_status 方法 抛 出 异常 。10 


10HTTP 代码 200 表示 成 功 完成 HTTP 请 求 。 ”编者 注 


@ download_one 函数 捕获 requests.exceptions.HTTPError 异 
常 ， 特 别处 理 HTTP 404 PRIR... 


日 方法 是 ， 把 局 部 变量 status 设 为 HTTPStatus .not_found:; 
HTTPStatus 是 从 flags2_common 模块 ( 见 示例 A-10) 中 导入 的 Enum 
对 象 。 


O Hew Ht HTTPError 异常 ;这 些 异 常会 同上 冒 泡 ， 传 给 调用 方 。 


© 如 果 在 命令 行 中 设 定 了 -v/- -verbose 选项 ， 显 示 国 家 代码 和 状态 消 
息 ; 这 就 是 详细 模式 中 看 到 的 进度 信息 。 


@ download_one 函数 的 返回 值 是 一 个 namedtuple——Result, Hf 
有 个 status 字段 ， 其 值 是 HTTPStatus .not_found 或 
HTTPStatus ,OKk。 


示例 17-13 列 出 的 是 download_many 函数 的 依 序 下 载 版 。 代 码 虽 然 简 单 ， 
不 过 值得 分 析 一 iY 以 便 后 面 与 并 发 版 对 比 。 我 们 要 关注 的 是 报告 进度 、 处 
理 鱼 误 和 统计 下 载 数量 的 方式 。 


示例 17-13 flags2_sequential.py: 实现 依 序 下 载 的 download_many 画 
数 


def download_many(cc_list, base_url, verbose, max_req): 
counter = collections.Counter() @ 
cc_iter = sorted(cc_list) @ 
if not verbose: 
cc_iter = tqdm.tqdm(cc_iter) © 
for cc in cc_iter: @ 
try: 
res = download_one(cc, base_url, verbose) © 
except requests.exceptions.HTTPError as exc: © 
error_msg = 'HTTP error f{res.status_code} - {res.reason}' 
error_msg = error_msg.format(res=exc.response) 
except requests.exceptions.ConnectionError as exc: @ 
error_msg = 'Connection error' 
else: © 
error_msg = '' 
status = res.status 


if error_msg: 
status = HTTPStatus.error © 
counter[status] t= 1 @ 
if verbose and error_msg: ® 
print('*** Error for {}: {}'.format(cc, error_msg) ) 


return counter @ 


@ 这 个 Counter 实例 用 于 统计 不 同 的 下 载 状态 : HTTPStatus.ok ` 
HTTPStatus.not_found #% HTTPStatus.error ° 


O 按 字 母 顺序 传 入 的 国家 代码 列表 ， 保 存在 cc_iter 变量 中 。 


O 如 果 不 是 详细 模式 ， iter 传 给 tqdm 函数 ， 返 回 一 个 迭代 器 ， 产 
出 cc_iter 中 的 元 素 ， 显示 进度 条 动画 。 


@ 这 个 for 循环 迭代 cc_iter. 


日 不 断 调 用 download_one Rau, HiT PRK ° 


O 处 理 get_flag 函数 抛 出 的 与 HTTP 有 关 的 且 download_one 了 画 数 没有 
处 理 的 异常 。 


o 处 理 其 他 与 网 络 有 关 的 异常 。 其 他 异常 会 中 止 这 个 脚本 ， 因 为 调用 
download_many 函数 的 flags2_common .main 函数 中 没有 
try/except 块 。 


O 如 果 没 有 异常 从 download_one 画 数 中 逃 出 ， 从 download_one 函数 
返回 的 namedtuple (HTTPStatus) 中 获取 status ° 


@ 如 果 有 错误 ， 把 局 部 变量 status 设 为 相应 的 状态 。 

四 以 HTTPStatus (—‘ Enum) 中 的 值 为 键 ， 增 加 计数 器 。 

@ 如 果 是 详细 模式 ， 而 且 有 错误 ， 显 示 带 有 当前 国家 代码 的 错误 消息 。 
四 返回 counter， 以 便 main 函数 能 在 最 终 的 报告 中 显示 数量 。 

下 面 分 析 重 构 后 的 线程 池 示 例 


flags2_threadpool.py ° 


17.5.2 {#Afutures.as_completedW2X 


为 了 集成 TQDM 进度 条 ， 并 处 理 各 次 请 求 中 的 错误 ，flags2_threadpool.py 脚 
本 用 到 我 们 见 过 的 futures .ThreadPoolExecutor 类 和 
futures.as_completed 函数 。 示 例 17-14 是 flags2_threadpool.py 脚本 的 
完整 代码 清单 。 这 个 脚本 只 实现 了 download_many 函数 ， 其 他 函数 都 重用 
flags2_common 和 flags2_sequential 模块 里 的 。 


示例 17-14 flags2_threadpool.py: 完整 的 代码 清单 


import collections 
from concurrent import futures 


import requests 
import tqdm @ 


from flags2_common import main, HTTPStatus 
from flags2_sequential import download_one 


© © 


DEFAULT_CONCUR_REQ = 30 @ 
MAX_CONCUR_REQ = 1000 © 


def download_many(cc_list, base_url, verbose, concur_req): 
counter = collections.Counter() 
with futures. ThreadPoolExecutor(max_workers=concur_req) as executor: 
© 
to_do_map = {} © 
for cc in sorted(cc_list): ® 
future = executor.submit(download_one, 
cc, base_url, verbose) © 
to_do_map[future] = cc 四 
done_iter = futures.as_completed(to_do_map) @® 
if not verbose: 
done_iter = tqdm.tqdm(done_iter, total=len(cc_list)) @®@ 
for future in done_iter: ® 
try: 
res = future.result() 四 
except requests.exceptions.HTTPError as exc: ® 
error_msg = 'HTTP {res.status_code} - {res.reason}' 
error_msg = error_msg.format(res=exc.response) 
except requests.exceptions.ConnectionError as exc: 
error_msg = ‘Connection error' 
else: 
error_msg = '' 
status = res.status 


if error_msg: 
status = HTTPStatus.error 
counter[status] += 1 
if verbose and error_msg: 
cc = to_do_map[future] © 
print('*** Error for {}: {}'.format(cc, error_msg) ) 
return counter 


if _ name__ == '__main__': 
main(download_many, DEFAULT_CONCUR_REQ, MAX_CONCUR_REQ) 


@ 导入 显示 进度 条 的 库 。 


@ M flags2_common 模块 中 导入 一 个 函数 和 一 个 Enum 。 


@ 重用 flags2_sequential 模块 ( 见 示例 17-12) HAY download_one 
函数 。 


@ 如 果 没 有 在 命令 行 中 指定 -m/--max_reg 选项 ， 使 用 这 个 值 作为 并 发 请 
求 数 的 最 大 值 ， 也 就 是 线程 池 的 大 小 ; 真实 的 数量 可 能 会 比 这 少 ， 例 如 下 载 
的 国旗 数量 较 少 。 


O 不 管 要 下 载 多 少 国 旗 ， 也 不 管 -m/- -max_red 命令 行 选项 的 值 是 多 少 ， 
MAX_CONCUR_REQ 会 限制 最 大 的 并 发 请 求 数 ， 这 是 一 项 安全 预防 措施 。 


© 把 max_workers 设 为 concur_req, 创建 ThreadPoolExecutor 实 
例 ; main 函数 会 把 下 面 这 三 个 值 中 最 小 的 那个 赋值 给 concur_red: 
MAX_CONCUR_REQ* cc_list 的 长 度 、-m/--max_redq 命令 行 选项 的 值 。 
这 样 能 避免 创建 超过 所 需 的 线程 。 


@ 这 个 字典 把 各 个 Future 实例 (表示 一 次 下 载 ) 映射 到 相应 的 国家 代码 
上 ， 在 处 理 错误 时 使 用 。 


© 按 字母 顺序 迭代 国家 代码 列表 。 结 果 的 顺序 主要 由 HTTP 响应 的 时 间 长 短 
决定 ， 不 过 ， 如 果 线 程 池 的 大 小 (由 concur_req 设 定 ) 比 
len(cc_list) 小 得 多 ， 可 能 会 发 现 有 按 字母 顺序 批量 下 载 的 情况 。 


© 每 次 调用 executor.submit 方法 排 定 一 个 可 调用 对 象 的 执行 时 间 ， 然 
后 返回 一 个 Future 实例 。 第 一 个 参数 是 可 调用 的 对 象 ， 其 余 的 参数 是 传 给 
可 调用 对 象 的 参数 。 


© 把 返回 的 Future 和 国家 代码 存储 在 字典 中 。 


@® futures.as_completed 函数 返回 一 个 迭代 器 ， 在 期 物 运行 结束 后 产 
出 期 物 。 


O 如 果 不 是 详细 模式 ， 把 as_completed 函数 返回 的 结果 传 给 tqdm 画 
数 ， 显 示 进 度 条 ; 因为 done_iter 没有 len 函数 ， 所 以 我 们 必须 通过 
Oi- 参数 告诉 tqdm 函数 预期 的 元 素数 量 ， 这 样 tqdm 才能 预计 剩余 的 
工作 量 。 


O 欠 代 运行 结束 后 的 期 物 。 


© 在 期 物 上 调用 result 方法 ， 要 么 返回 可 调用 对 象 的 返回 值 ， Amt 
可 调用 的 对 象 在 执行 过 程 中 捕获 的 异常 。 这 个 方法 可 能 会 阻塞 ， 等 竺 确定 结 
果 ; 不 过 ， 在 这 个 示例 中 不 会 阻塞， 因为 as_completed 函数 只 ene 
运行 结束 的 期 物 。 


O 处 理 可 能 出 现 的 异常 ， 这 个 函数 余下 的 代码 与 依 序 下 载 版 
download_many 画 数 一 样 〈《 见 示例 17-13) ， 不 过 下 一 点 除外 。 


Ow 为 了 给 错误 消息 提供 上 下 文 ， 以 当前 的 future 为 键 ， 从 to_do_map 中 
获取 国家 代码 。 在 依 序 下 载 版 中 无 须 这 么 做 ， 因 为 那 一 版 迭代 的 是 国家 代 


码 ， 所 以 知道 当前 国家 的 代码 ;而 这 里 友 代 的 是 期 物 。 


示例 17-14 用 到 了 一 个 对 futures.as_completed £ 商 数 特别 有 用 的 惯用 
TE: 构建 一 个 字典 ， 把 各 个 期 物 映 射 到 其 他 数据 (期 物 运行 结束 后 可 能 

FR) 上 。 这 里 ， 在 to do_map "F, 我 们 把 各 个 期 物 映射 到 对 应 的 国家 代码 
。 这 样 ， 尽 管 期 物 生 成 的 结果 顺序 已 经 乱 了 ， 依 然 便 于 使 用 结果 做 后 续 处 


m o 

Python 线程 特别 适合 IO 密集 型 应 用 ，concurrent ,futures 模块 大 大 简 
化 了 某 些 使 用 场景 下 Python 线程 的 用 法 。 我 们 对 concurrent. futures 
模块 基本 用 法 的 介绍 到 此 结 下 面 讨 论 不 适合 使 用 
ThreadPoolExecutor 或 pe Oo ot 类 时 ， 有 哪些 百代 方 


案 。 


17.5.3 ”线程 和 多 进程 的 奉 代 方案 


Python 自 0.9.8 版 (1993 年 ) 就 文 持 线程 了 ，concurrent ,futures 只 不 
过 是 使 用 线程 的 最 新 方式 。 Python 3 废弃 了 原来 的 thread 模块 ， 换 成 了 高 
级 的 threading 模块 。 芋 如 果 Futures. ThreadPoolExecutor 类 对 某 
个 作业 来 说 不 够 灵活 ， 可 能 要 使 用 threading 模块 中 的 组 件 (如 
Thread、Lock、Semaphore 等 ) 自行 制定 方案 ， 比 如 说 使 用 queue 模块 
创建 线程 安全 的 队列 ， 在 线程 之 间 传 递 数据 。 
futures.ThreadPoolExecutor 类 已 经 封装 了 这 些 组 件 。 


Uthreading 模块 自 Python 1.5.1 (1998 年 ) 就 已 存在 ， 不 过 有 些 人 仍然 继续 使 用 旧 的 thread 模 
块 。 ~ Python 3 把 thread 模块 重 命名 为 thread， 以 此 强调 这 是 低层 实现 ， 不 应 该 在 应 用 代码 中 使 


对 CPU 密集 型 工作 来 说 ， 要 启动 多 个 进程 ， 规 吉 GIL。 创 建 多 个 进程 最 简 
单 的 方式 是 ， 使 用 futures.ProcessPoolExecutor 类 。 不 过 和 前 面 一 
样 ， 如 果 使 用 场景 较 复杂 ， 需 要 更 高 级 的 工具 。multiprocessing 模块 的 
API 与 threading 模块 相仿 ， 不 过 作业 交 给 多 个 进程 处 理 。 对 简单 的 程序 
来 说 ， 可 以 用 multiprocessing 模块 代替 threading 模块 ， 少 量 改动 
即 可 。 不 过 ，multiprocessing 模块 还 能 解决 协作 进程 遇 到 的 最 大 挑战 : 
在 进程 之 间 传 递 数 据 。 


17.6 ”本 章 小 结 


本 章 开头 对 两 个 HTTP 并 发 客户 端 和 一 个 依 序 下 载 的 客户 端 做 了 对 比 ， 结 宁 
征 并 发 版 比 依 序 下 载 的 脚本 性 能 高 很 多 。 


分 析 过 使 用 concurrent .futures 实现 的 第 一 个 示例 后 ， 我 们 深入 探讨 了 
期 物 对 象 ， 即 concurrent.futures.Future 或 asyncio,.Future 类 
的 实例 ， 着 重 说 明了 二 者 的 共同 点 (区 别 在 第 18 章 详 述 ) 。 我 们 说 明了 如 
何 使 用 Executor .submit(.., ) 方法 创建 期 物 ， 以 及 如 何 使 用 
concurrent.futures.as_completed(...) 函数 迭代 运行 结束 的 期 
物 。 


接 下 来 ， 我 们 分 析 了 为 什么 尽管 有 GIL, Python 线程 仍然 适合 VO 密集 型 应 
FA: 标准 库 中 每 个 使 用 C 语言 编写 的 VO 函数 都 会 释放 GIL， 因 此 ， 当 某 个 
线程 在 等 待 IO 时 ， Python 调度 程序 会 切换 到 另 一 个 线程 。 然 后 ， 我 们 讨论 
了 如 何 借 助 concurrent.futures.ProcessPoolExecutor 类 使 用 多 进 
程 ， 以 此 绕 开 GIL， 使 用 多 个 CPU 核心 运行 加 密 算 法 ， 并 通过 四 个 职 程 实 
现 一 倍 多 的 速度 提升 。 


在 随后 的 一 万 中， 我 们 深入 分 析 了 
concurrent.futures. ThreadPoolExecutor 类 的 运作 方式 。 为 了 说 
明 问 题 ， 我 特意 举 了 一 个 示例 ， 创 建 几 个 任务 ,但 是 休眠 几 秒 钟 ， 什 么 也 不 
fit, 只 是 显示 带 有 时 间 惟 的 状态 。 


接 下 来 ， 本 章 回 到 下 载 国旗 的 示例 ， 增 加 了 进度 条 和 错误 处 理 代码 ， 并 且 进 
一 步 探索 7 了 future.as_completed 生成 器 函数 。 我 们 得 知 一 个 常见 的 做 
法 : 把 期 物 存储 在 一 个 字典 中 ， 提 交 期 物 时 把 期 物 与 相关 的 信息 联系 起 来 ; 
i, as_completed 迭代 器 产 出 期 物 后 ， 台 可 以 使 用 那些 信息 。 


最 后 ， 本 章 简要 说 明了 多 线程 和 多 进程 并 发 的 低层 实现 (但 却 更 灵活 ) 一 一 
threading 和 multiprocessing 模块 。 这 两 个 模块 代表 在 Python 中 使 
用 线程 和 进程 的 传统 方式 。 


17.7 ”延伸 阅读 


Brian Quinlan 是 concurrent .futures 包 的 贡献 者 ， 他 在 PyCon Australia 
2010 上 所 做 的 “The Future Is Soon!” 演 讲 对 这 个 包 做 了 介绍 。Quinlan 演讲 时 
没 用 幻灯 片 ， 而 是 直接 在 Python 控制 台中 输入 代码 ， 以 此 说 明 这 个 库 的 用 
途 。 作 为 引子 ， 他 在 演讲 中 推荐 了 XKCD 漫画 家 和 程序 员 Randall Munroe 
制作 的 一 个 视频 ，Randall 在 这 个 视频 中 对 Google Maps 发 起 了 DoS 攻击 

( 非 有 意 为 之 ) ， 绘 制 一 个 彩色 地 图 ， 显 示 他 区 车 绕 城 的 路 线 。 这 个 库 的 正 
式 介绍 文件 是 “PEP 3148—f ut ures—execute computations asynchronously” ° 
在 这 个 PEP 中 ，Quinlan 写 道 ，concurrent ,futures 库 “ 受 Java 的 
java.util.concurrent 包 影 响 很 大 ”。 


Jan Palach 写 的 Parallel Programming with Python (Packt 出 版 社 ) 一 书 介绍 
了 几 个 并 发 编程 的 工具 ， 包 括 concurrent .futures、threading 和 
multiprocessing 库 。 除 了 标准 库 之 外 ， 这 本 书 还 讨论 了 Celery。 这 是 一 
个 任务 队列 ， 用 于 把 工作 分 配给 多 个 线程 和 进程 ， 甚 至 是 不 同 的 设备 。 在 
Django 社区 中 ， 为 了 减轻 繁重 任务 的 负担 (例如 ， 把 生成 PDF 的 工作 交 给 
其 他 进程 ， 防 止 HTTP 响应 延迟 生成 ，Celery 可 能 是 使 用 最 广泛 的 系统 。 


Beazley 与 Jones 的 著作 《Python Cookbook (8 3h) 中文 版 ”有 多 个 使 用 
concurrent.futures 的 诀 窑 ， 首 先是 “11.12 理解 事件 驱动 型 TO”。“12.7 
创建 线程 池 ” 展 示 了 一 个 简单 的 TCP 回 显 服务 器 ,“12.8 实现 简单 的 并 行 编 
程 > 提 供 了 一 个 特别 实用 的 示例 : 借助 ProcessPoolExecutor 实例 分 析 
一 整个 目录 中 使 用 gzip 压缩 的 Apache 日 志文 件 。 这 本 书 的 第 12 章 对 线程 
做 了 更 多 介绍 ， eee 提 的 是 “12.10 定义 一 个 Actor 任务 "”， 这 个 诀窍 演 
示 了 参 DZIEN, 通过 传递 消息 协调 多 个 线程 的 可 行 方式 。 


Brett Slatkin 写 的 《Effective Python: 编写 高 质量 Python 代码 的 59 个 有 效 方 
法 》 一 书 中 有 一 章 探 讨 了 并 发 的 多 个 话题 ， 包 括 : OE A 
concurrent .futures 库 处 理 线程 和 进程 ， 不 使 用 
ThreadPoolExecutor 类 ， 而 使 用 锁 和 队列 做 线程 编程 。 


Micha Gorelick 与 Ian Ozsvald 写 的 High Performance Python (O'Reilly 出 版 
社 ) 和 Doug Hellmann 写 的 《Python 标准 库 》 都 涵盖 了 线程 和 进程 。 


在 想 了 解 不 使 用 线程 或 回调 的 现代 并 发 方式 ， 推 荐 阅读 Paul Butcher 写 的 
《七 周 七 并 发 模型 》。 苹 我 喜欢 这 本 书 的 副标题 “When Threads 

Unravel” (线程 束手无策 之 时 ) 。 这 本 书 的 第 1 章 简 单 介绍 了 线程 和 锁 ， 后 
面 的 六 草 探 讨 了 不 同 语言 (不 包括 Python ` Ruby 和 JavaScript) 为 并 发 编程 

提供 的 现代 化 替代 方案 。 


了 2 该 书 已 由 人 民 邮 电 出 版 社 出 版 ， 书 号 : 978-7-115-38606-9 ° 编者 注 


如 果 对 GIL 感 兴趣 ， 请 先 阅读 Python 文档 中 的 “Python Library and Extension 
FAQ” (“Can't we get rid of the Global Interpreter Lock?”) 。Guido van Rossum 
写 的 “It isn't Easy to Remove the GIL” ll Jesse Noller (multiprocessing 包 
的 贡献 者 ) 写 的 “Python Threads and the Global Interpreter Lock” 也 值得 一 读 。 
此 外 ，David Beazley 在 “Understanding the Python GIL” 中 详细 探讨 了 GIL 的 
内 部 运作 。 了 3 在 这 次 演讲 的 第 54 张 幻 灯 厂 中 ，Beazley 得 出 了 一 些 令 人 担忧 
的 结果 ， 例 如 ， 使 用 Python 3.2 引入 的 新 GIL 算法 做 基准 测试 时 ， 他 发 现 处 
理 时 间 增 加 了 20 倍 。 人 Beazley 似乎 使 用 一 个 空 的 while True: 

pass 循环 模拟 CPU 密集 型 工作 ， 而 现实 中 不 会 这 样 做 。 在 Beazley 提交 的 


缺陷 报告 中 ， 根 据 Antoine Pitrou (实现 新 GIL 算法 的 人 ) 的 评论 ， 这 个 问题 
与 工作 负载 没有 太 大 关系 。 


3 感谢 Lucas Brunialti 把 这 个 演讲 的 链接 发 给 我 。 


GIL 是 实际 存在 的 问题 ， 而 且 短 时 间 内 不 可 能 消失 ， 不 过 Jesse Noller 和 
Richard Oudkerk 开发 了 一 个 库 ， 能 让 CPU 密集 型 应 用 轻松 地 绕 开 这 个 问题 
multiprocessing 包 。 这 个 包 在 多 个 进程 中 模拟 threading 模块 的 
API， 而 且 文 持 基 础 设施 的 锁 、 队 列 、 管 道 、 共 享 内 存 ， 等 等 。 这 个 包 

由 “PEP 371—Addition of the multiprocessing package to the standard library”5 | 
入 。 这 个 包 的 官方 文档 是 个 93KB 的 .rst 文件 (大 约 63 页 ) ， 是 Python 标 
准 库 文档 中 最 长 的 一 章 。 多 进程 是 


concurrent .futures.ProcessPoolExecutor 类 的 基础 。 


对 于 CPU 密集 型 和 数据 密集 型 并 行 处 理 ， 现 在 有 个 新 工具 可 用 一 一 分 布 式 
计算 引 警 Apache Spark ° Spark 在 大 数据 领域 发 展 势头 强劲 ， 提 供 了 友好 的 
Python API， 文 持 把 Python 对 象 当 作 数 据 ， 如 示例 页 面 所 示 。 


Joao S. O. Bueno 开发 的 lelo 库 和 Nat Pryce 开发 的 python- 
parallelize 库 简 洛 且 十 分 易于 使 用 ， 它们 的 作用 是 使 用 多 个 进程 处 理 并 
SHES ° lelo 包 定 义 了 一 个 @parallel 装饰 器 ， 可 以 应 用 到 任何 函数 
上 ， 把 函数 变 成 非 阻塞 : 调用 被 装饰 的 函数 时 ， 画 数 在 一 个 新 进程 中 执行 。 
Nat Pryce 开发 的 python-parallelize 包 提供 了 一 个 parallelize 生 
成 器 ， 能 把 for 循环 分 配给 多 个 CPU 执行 。 这 两 个 包 在 内 部 都 使 用 了 
multiprocessing 模块 。 


I 


远离 线程 
并 发 是 计算 机 科学 中 最 难 的 概念 之 一 (通常 最 好 别 去 招惹 它 ) 914 
David Beazley 
Python 教练 和 科学 狂人 


上 面 引 自 David Beazley 的 话 与 本 章 开 头 引 上 自 Michele Simionato 的 话 明 
显 矛盾 ， 但 我 都 同意 。 在 大 学 学 过 一 门 并 发 课程 之 后 〈 那 门 课 把 “并 发 
编程 ”与 管理 线程 和 锁 划 上 等 号 ) ， 我 得 出 一 个 结论 ， 我 不 该 自己 管理 
线程 和 锁 ， 而 应 该 管理 内 存 分 配 和 释放 。 线 程 和 锁 最 好 由 懂行 的 系统 程 
序 员 管理 ， 他 们 有 这 种 爱好 ， 也 有 时 间 去 管理 (但 愿 如 此 ) 


因此 我 觉得 concurrent .futures 包 很 棒 ， 它 把 线程 、 进 程 和 队列 视 
作 服 务 的 基础 设施 ， 不 用 自己 动手 直接 处 理 。 当 然 ， 这 个 包 针对 的 是 简 
单 的 作业 ， 也 就 是 所 谓 的 “高 度 并 行 ? 问 题 。 可 是 ， 正 如 本 章 开头 
Simionato 所 说 的 那样 ， 编 写 应 用 〈 而 非 操 作 系统 或 数据 库 服务 器 ) 

时 ， 遇 到 的 大 部 分 并 发 问题 都 属于 这 一 种 。 


对 于 并 发 程度 不 高 的 问题 来 说 ， 线 程 和 锁 也 不 是 解决 之 道 。 在 操作 系统 
层面 ， 线 程 永 远 不 会 消失 ; 不 过 ， 过 去 七 年 我 觉得 让 人 眼前 一 亮 的 编程 
语言 (fS Go ` Elixir 和 Clojure) 都 对 并 发 做 了 更 好 、 更 高 层 的 抽象 

正如 《七 周 七 并 发 模型 》 一 书 所 述 。Erlang (实现 Elixir 的 语言 ) 是 典 

型 示例 ， 设 计 这 门 语言 时 彻底 考虑 到 了 并 发 。 我 对 这 门 语言 不 感 兴趣 的 
原因 很 简单 一 一句 法 丑陋 。 我 被 Python 的 句法 宠 坏 了 。 


José Valim 是 著名 的 Ruby on Rails 核心 贡献 者 ， 他 设计 的 Elixir 提供 了 
友好 而 现代 的 句法 。 与 Lisp 和 Clojure 一 样 ，Elixir 也 实现 了 句法 宏 。 这 
是 把 双 娘 剑 。 使 用 句法 宏 能 实现 强大 的 DSL， 可 是 衍生 语言 多 起 来 之 
后 ， 代 码 基 会 出 现 兼容 问题 ， 社 区 会 分 裂 。 大 量 涌 现 的 宏 导 致 Lisp 没 
落 ， 因 为 各 种 Lisp 实现 都 使 用 独特 难 慌 的 方言 。 标 准 化 的 Common Lisp 
则 开始 复苏 。 我 希望 José Valim 能 引领 Elixir 社区 ， 不 要 重 蹊 履 辕 。 


与 Elixir 类 似 ，Go 也 是 一 门 充 满 新 意 的 现代 语言 。 可 是 ， 与 Elixir 相 
比 ， 某 些 方面 有 点 保守 。Go 不 支持 宏 ， 句 法 比 Python 简单 。Go 也 不 支 
持 继承 和 运算 符 重 载 ， 而 且 提 供 的 元 编程 文 持 没 有 Python 多。 这些 限制 
被 认为 是 Go 语言 的 特点 ， 因 为 行为 和 性 能 更 可 预料 。 这 对 高 并 发 来 说 
是 好 事 ， 而 Go 的 重要 使 命 是 取代 C+ ` Java 和 Python ° 

BIA Elixir 和 Go 在 高 并 发 领域 是 直接 的 竞争 者 ， 但 是 设计 原理 的 不 同 
则 吸引 了 不 同 的 用 户 群 。 这 两 门 语言 都 可 能 鞍 勃 发 展 。 可 是 纵 观 编程 语 
言 的 历史 ， 保 守 的 语言 更 能 吸引 程序 员 。 我 希望 自己 能 精通 Go 和 


Elixir 。 
关于 GIL 


GIL 简化 了 CPython 解释 器 和 C 语言 扩展 的 实现 。 得 益 于 GIL, Python 
有 很 多 C 语言 扩展 一 一 这 绝对 是 如 今 Python 如 此 受 欢迎 的 主要 原因 之 


Sp 


多 年 以 来 ， 我 一 直觉 得 GIL 导致 Python 线程 几乎 没有 用 武之 地 ， 只 能 
开发 一 些 玩具 应 用 。 直 到 发 现 标 准 库 中 每 一 个 阻塞 型 IO 函数 都 会 释放 
GIL 之 后 ， 我 才 意 识 到 Python 线程 特别 适合 在 IO 密集 型 系统 (鉴于 我 
的 工作 经 验 ， 客 户 经 常 付费 让 我 开发 这 种 应 用 ) 中 使 用 。 


竞争 对 手 对 并 发 的 支持 


MRI (推荐 使 用 的 Ruby SCH) 也 有 GIL， 因 此 ，Ruby 线程 与 Python 线 
程 受 到 同样 的 限制 。 相 比 之 下 ，JavaScript 解释 器 则 根本 不 支持 用 户 层 
级 的 线程 。 在 JavaScript 中 ， 只 能 通过 回调 式 异 步 编程 实现 并 发 。 我 提 
到 这 些 是 因为 ，Ruby 和 JavaScript 是 最 能 直接 与 Python 竞争 的 通用 动 
态 编程 语言 。 


在 深 说 并 发 的 这 一 批 新 语言 中 ，Go 和 Elixir 或 许 是 最 能 蚕食 Python 的 
语言 。 不 过 ， 现 在 有 asyncio 了 “。 既 然 这 么 多 人 相信 纯粹 使 用 回调 的 
Node.js 平台 可 以 做 并 发 编程 ， 那 么 asyncio 生态 系统 成 熟 后 ，Python 
说 回 这 些 人 能 有 多 难 呢 ?不 过 ， 这 是 下 一 章 “ 杂 谈 ” 的 话题 。 


14 摘 自 PyCon 2009 教程 “A Curious Course on Coroutines and Concurrency” 的 第 9 张 幻 灯 片 。 


第 18 章 使 用 asyncio 包 处 理 并 发 


并 发 是 指 一 次 处 理 多 件 事 。 

并 行 是 指 一 次 做 多 件 事 。 

二 者 不 同 ， 但 是 有 联系 。 

一 个 关于 结构 ， 一 个 关于 执行 。 

并 发 用 于 制定 方案 ， 用 来 解决 可 能 (但 未 必 ) 并 行 的 问题 。” 


Rob Pike 
Go 语言 的 创造 者 之 一 


1 摘自 “Concurrency Is Not Parallelism (It's Better)” 演 讲 的 第 5 张 幻灯 片 。 


Imre Simon 教授 ?说 过 ， 科 学 界 有 两 个 重要 过 错 : 使 用 不 同 的 词 表示 相同 的 
事物 ， 以 及 使 用 同一 个 词 表示 不 同 的 事物 。 如 末 你 研究 过 并 发 编 往 或 并 行 编 
程 ， 会 发 现 “ 并 发 "和 “并 行 * 有 不 同 的 定义 。 我 将 采用 上 壕 引 文中 Rob Pike 的 
非 正式 定义 。 

Imre Simon (1943—2009) 是 巴西 的 计算 机 科学 先驱 ， 对 自动 机 理论 (Automata Theory) oo 


贡献 ， 开 创 了 热带 数学 (Tropical Mathematics) 这 一 领域 。 他 还 是 自由 软件 和 自由 文化 的 拥护 
有 和 邓 曾 与 他 一 起 学 习 、 工 作 和 相处 。 


真正 的 并 行 需要 多 个 核心 。 现 代 的 笔记 本 电脑 有 4 个 CPU 核心 ， 但 是 通常 
不 经 意 间 就 有 超过 100 个 进程 同时 运行 。 因 此 ， 实 际 上 大 多 数 过 程 都 是 并 发 
处 理 的 ， 而 不 是 并 行 处 理 。 计 算 机 始终 运行 着 100 多 个 进程 ， 确 保 每 个 进程 
都 有 机 会 取得 进展 ， 不 过 CPU 本 身 同时 做 的 事情 不 能 超过 四 件 。 十 年 前 使 
用 的 设备 也 能 并 发 处 理 100 个 进程 ， 不 过 都 在 同一 个 核心 里 。 鉴 于 此 ，Rob 
Pike 才 把 那 次 演讲 取 名 为 “Concurrency Is Not Parallelism (It's Better)”[“ 并 发 不 
是 并 行 (并 发 更 好 ) ”] ° 


本 章 介绍 asyncio | 包 ， 这 个 包 使 用 事件 循环 驱动 的 协 程 实现 并 发 。 这 是 
Python 中 最 大 也 是 最 具 雄 心 壮志 的 库 之 一 。Guido van Rossum 在 Python 仓库 
之 外 开发 asyncio 包 ， 把 这 个 项 目的 代号 命名 为 “Tulip”( 郁 金 香 ) ° 

此 ， 在 网 上 搜索 这 方面 的 资料 时 会 经 党 看 到 这 种 花 的 名 称 。 例 如 ， 这 个 项 
目的 主要 讨论 组 仍 叫 python-tulip。 


Python 3.4 把 Tulip 添加 a 到 标准 库 中 时 ， 把 EEREN asyncio。 这 个 包 也 
兼容 Python 3.3， 在 PyPI 中 可 以 通过 新 的 官方 名 称 找 到 


(https://pypi.python.org/pypi/asyncio) ° asyncio 大 量 使 用 yie1ld from 
表达 式 ， 因 此 与 Python 旧版 不 兼容 。 


~I Trollius 项 目 〈 也 以 花 名 命名 ，http:Wtrollius.readthedocs.org/) 移植 
了 asyncio, 把 yield from 替换 成 yield 和 精巧 的 回调 (From 和 
Return) ， 以 便 支持 Python 2.6 及 以 上 版 本 。yield from ... 表达 
式 变 成 了 yield From(...); 如 果 协 程 需要 返回 结果 ， 那 么 要 把 
return result 替换 成 raise Return(result)。Trollius 由 
Victor Stinner 主导 ， 他 也 是 asyncio 包 的 核心 开发 者 。Victor 人 很 好 ， 
在 本 书 付 梓 之 前 同意 审核 本 章 。 


本 章 讨论 以 下 话题 : 


对 比 一 个 简单 的 多 线程 程序 和 对 应 的 asyncio 版 ， 说 明 多 线程 和 异步 
任务 之 间 的 关系 


asyncio.Future 类 与 concurrent .futures.Future 类 之 间 的 区 
别 


第 17 革 中 下 载 国旗 那些 示例 的 异步 版 

握 弃 线程 或 进程 ， 如 何 使 用 异步 编程 管理 网 络 应 用 中 的 高 并 发 

在 异步 编程 中 ， 与 回调 相 比 ， 协 程 显著 提升 性 能 的 方式 

如 何 把 阻塞 的 操作 交 给 线程 池 处 理 ， 从 而 避免 阻塞 事件 循环 

使 用 asyncio 编写 服务 器 ， 重 新 审视 Web 应 用 对 高 并 发 的 处 理 方式 
为 什么 asyncio 已 经 准备 好 对 Python 生态 系统 产生 重大 影响 

首先 ， 本 章 通过 简单 的 示例 来 对 比 threading 模块 和 asyncio  ° 


18.1 ”线程 与 协 程 对 比 


有 一 次 讨论 线程 和 GIL 时 ，Michele Simionato 发 布 了 一 个 简单 但 有 趣 的 示 
例 : 在 长 时 间 计 算 的 过 程 中 ， 使 用 multiprocessing 包 在 控制 台中 显示 
一 个 由 ASCI 字符 "|/-\" 构成 的 动画 旋转 指针 。 


我 改写 了 Simionato 的 示例 ， 一 个 借 由 threading 模块 使 用 线程 实现 ， 一 
个 借 由 asyncio 包 使 用 协 程 实现 。 我 这 么 做 是 为 了 让 你 对 比 两 种 实现 ， 理 
解 如 何不 使 用 线程 来 实现 并 发 行为 。 


示例 18-1 和 示例 18-2 的 输出 是 动态 的 ， 因 此 你 一 定 要 运行 这 两 个 脚本 ， 看 
看 结果 如 何 。 如 果 你 在 坐 地 铁 (或 者 在 某 个 没有 Wi-Fi 连接 的 地 方 ) ， 可 以 
看 图 18-1， 想 象 单词 “thinking” 之 前 的 \ 线 是 旋转 的 。 


eoo 2. Python 


图 18-1: spinner_thread.py 和 spinner_asyncio.py 两 个 脚本 的 输出 类 似 : 旋 
转 指 针对 象 的 字符 串 表 示 形 式 和 文本 “Answer: 42”。 在 这 个 截图 中 ， 
spinner_asyncio.py 脚本 仍 在 运行 中 ， 旋 转 指 针 显 示 的 是 ^ thinking!” 消 息 ; 
脚本 运行 结束 后 ， 那 一 行 会 替换 成 <Answer: 42” 


首先 ， 分 析 spinner_thread.py 脚本 〈 见 示例 18-1) ° 
示例 18-1 spinner_thread.py: 通过 线程 以 动画 形式 显示 文本 式 旋转 指针 


import threading 
import itertools 
import time 
import sys 


class Signal: @ 
go = True 


def spin(msg, signal): @ 
write, flush = sys.stdout.write, sys.stdout.flush 
for char in itertools.cycle('|/-\\'): © 
status = char + ' ' + msg 
write(status) 
flush() 
write('\x08' * len(status)) @ 


time.sleep(.1) 
if not signal.go: © 
break 
write(' ' * len(status) + '\x08' * len(status)) © 


def slow_function(): @ 
# 假装 等 待 T/0 一 段 时 间 
time.sleep(3) © 
return 42 


def supervisor(): © 
Signal = Signal() 
Spinner = threading. Thread(target=spin, 
args=('thinking!', signal) ) 
print('spinner object:', spinner) 四 
spinner.start() @® 
result = slow_function() @ 
signal.go = False ® 
spinner.join() @ 
return result 


def main(): 
result = supervisor() ® 


print('Answer:', result) 
if _name__ == '__main_': 
main() 


@ 这 个 类 定义 一 个 简单 的 可 变 对 象 ， 其 中 有 个 go 属性 ， 用 于 从 外 部 控制 线 
程 。 


@ 这 个 函数 会 在 单独 的 线程 中 运行 。signal 参数 是 前 面 定 义 的 Signal 类 
的 实例 。 


© 这 其 实 是 个 无 限 循 环 ， 因 为 itertools.cycle 函数 会 从 指定 的 序列 中 
反复 不 断 地 生成 元 素 。 


O 这 是 显示 文本 式 动 画 的 诀窍 所 在 : 使 用 退 格 符 (\x08) 把 光标 移 回 来 。 
O 如果 go 属性 的 值 不 是 True 了 ， 那 就 退出 循环 。 
@ 使 用 空格 清除 状态 消息 ， 把 光标 移 回 开头 。 


@ 假设 这 是 耗 时 的 计算 。 


© 调用 sleep 函数 会 阻塞 主线 程 ， 不 过 一 定 要 这 么 做 ， 以 便 释 放 GIL, il 
建 从 属 线程 。 


@ 这 个 函数 设置 从 属 线程 ， 显 示 线 程 对 象 ， 运 行 耗 时 的 计算 ， 最 后 杀 死 线 
程 。 


© 显示 从 属 线程 对 象 。 输 出 类 似 于 <Thread(Thread-1, initial)> ° 
D 启动 从 属 线程 。 


@ 运行 slow_function 函数 ， 阻 塞 主线 程 。 同 时 ， 从 属 线程 以 动画 形式 
显示 旋转 指针 。 


® 22% signal 的 状态 ， 这 会 终止 spin 函数 中 的 那个 for 循环 。 


等 待 spinner 线程 结束 。 


® 运行 supervisor 函数 。 


注意 ，Python 没有 提供 终止 线程 的 API， 这 是 有 意 为 之 的 。 若 想 关 闭 线程 ， 
必须 给 线程 发 送 消 息 。 这 里 ， 我 使 用 的 是 signal .go 属性 : 在 主线 程 中 把 
它 设 为 False Ja, spinner 线程 最 终 会 注意 到 ， 然 后 干净 地 退出 。 


下 面 来 看 如 何 使 用 @asyncio .coroutine 装饰 器 替代 线程 ， 实 现 相 同 的 行 


` 第 16 章 的 小 结 说 过 ，asyncio 包 使 用 的 “ 协 程 ”是 较 严 格 的 定 

义 。 适 合 asyncio API 的 协 程 在 定义 体 中 必须 使 用 yield from, 而 
不 能 使 用 yield。 此 外 ， 适 合 asyncio 的 协 程 要 由 调用 方 驱 动 ， 并 由 
调用 方 通过 yield from 调用 ; 或 者 把 协 程 传 给 asyncio 包 中 的 某 个 
函数 ， 例 如 asyncio.async(...) 和 本 章 要 介绍 的 其 他 函数 ， 从 而 驱 
动 协 程 。 最 后 ，@asyncio .coroutine 装饰 器 应 该 应 用 在 协 程 上 ， 如 
下 述 示例 所 示 。 


我 们 来 分 析 示 例 18-2。 


s 18-2 spinner_asyncio.py: 通过 协 程 以 动画 形式 显示 文本 式 旋转 指 


import asyncio 
import itertools 
import sys 


@asyncio.coroutine @ 
def spin(msg): @ 
write, flush = sys.stdout.write, sys.stdout.flush 
for char in itertools.cycle('|/-\\'): 
status = char + ' ' + msg 
write(status) 
flush() 
write('\x08' * len(status) ) 
try: 
yield from asyncio.sleep(.1) ® 
except asyncio.CancelledError: @ 
break 
write(' ' * len(status) + '\x08' * len(status)) 


@asyncio.coroutine 
def slow_function(): © 
# 假装 等 待 T/0 一 段 时 间 


yield from asyncio.sleep(3) © 
return 42 


@asyncio.coroutine 

def supervisor(): @ 
spinner = asyncio.async(spin('thinking!')) © 
print('spinner object:', spinner) © 
result = yield from slow_function() @ 
spinner.cancel() ® 
return result 


def main(): 
loop = asyncio.get_event_loop() @ 
result = loop.run_until_complete(supervisor()) ® 
loop.close() 
print('Answer:', result) 


if _name__ == '_ main_': 
main() 


@ 打算 交 给 asyncio 处 理 的 协 程 要 使 用 @asyncio.coroutine 装饰 。 这 
不 是 强制 要 求 ， 但 是 强烈 建议 这 么 做 。 原 因 在 本 列表 后 面 。 


@ 这 里 不 需要 示例 18-1 中 spin 函数 中 用 来 关闭 线程 的 signal 参数 。 


© (iH yield from asyncio.sleep(.1) 代替 time.sleep(.1)， 这 
样 的 休眠 不 会 阻塞 事件 循环 。 


O 如 果 spin KAGE aww asyncio.CancelledError 异常 ， 其 原因 
ÆA T PORWR, AKR HIA o 


© HÆ, slow_function 函数 是 协 程 ， 在 用 休眠 假装 进行 VO 操作 时 ， 使 
FA yield from 继续 执行 事件 循环 。 


@ yield from asyncio.sleep(3) 表达 式 把 控制 权 交 给 主 循环 ， 在 休 
眠 结束 后 恢复 这 个 协 程 。 


@ HE, supervisor 范 数 也 是 协 程 ， 因 此 可 以 使 用 yield from 驱动 
slow_function 函数 。 


© asyncio.async(...) 函数 排 定 spin 协 程 的 运行 时 间 ， 使 用 一 个 
Task 对 象 包装 spin 协 程 ， 并 立即 返回 。 


© 显示 Task 对 象 。 输 出 类 似 于 <Task pending coro=<spin() 
running at spinner_ asyncio.py:12>>° 


© IKD slow_function() 函数 。 结 束 后 ， 获 取 返 回 值 。 同 时 ， 事 件 循环 
继续 运行 ， 因 为 slow_function 函数 最 后 使 用 yield from 
asyncio.sleep(3) 表达 式 把 控制 权 交 回 给 了 主 循环 。 


D Task 对 象 可 以 取消 ; 取消 后 会 在 协 程 当前 暂停 的 yie1d 处 抛 出 
asyncio.CancelledError 异常 。 协 程 可 以 捕获 这 个 异常 ， 也 可 以 延迟 
取消 ， 甚 至 拒绝 取消 。 


O 获取 事件 循环 的 引用 。 


© IX supervisor 协 程 ， 让 它 运行 完毕 ， 这 个 协 程 的 返回 值 是 这 次 调用 
的 返回 值 。 


Bey 除非 想 阻 塞 主线 程 ， 从 而 冻结 事件 循环 或 整个 应 用 ， 否 则 不 要 在 
asyncio 协 程 中 使 用 time .sleep(...)。 如 果 协 程 需 要 在 一 段 时 间 
内 什么 也 不 做 ， 应 该 使 用 yield from asyncio.sleep(DELAY) ° 


使 用 @asyncio.¢ coroutine 装饰 器 不 是 强制 要 求 ， 但 是 强烈 建议 这 么 做 ， 
因为 这 样 能 在 一 众 普通 的 函数 中 把 协 程 凸显 出 来 ， 也 有 助 于 调试 : 如 果 还 没 


从 中 产 出 值 ， 协 程 就 被 垃圾 回收 了 (意味 着 有 操作 未 完成 ， 因 此 有 可 能 是 个 
缺陷 ) ， 那 就 可 以 发 出 警告 。 这 个 装饰 器 不 会 预 激 协 程 。 

注意 ，spinner_thread.py 和 spinner_asyncio.py 两 个 脚本 的 代码 行 数 差不多 。 
supervisor 函数 是 这 两 个 示例 的 核心 。 下 面 详细 对 比 二 者 。 示 例 18-3 只 
列 出 了 线程 版 示例 中 的 supervisor KËT ° 


示例 18-3 spinner_thread.py: 线程 版 supervisor 函数 


def supervisor(): 
signal = Signal() 
spinner = threading. Thread(target=spin, 
args=('thinking!', signal) ) 
print('spinner object:', spinner) 
spinner.start() 


result = slow_function() 
Signal.go = False 
spinner .join() 

return result 


为 了 对 比 ， 示 例 18-4 71H supervisor HFE ° 


示例 18-4 spinner_asyncio.py: 异步 版 supervisor 协 程 


@asyncio.coroutine 

def supervisor(): 
spinner = asyncio.async(spin('thinking!')) 
print('spinner object:', spinner) 


result = yield from slow_function() 
spinner.cancel() 
return result 


这 两 种 supervisor 实现 之 间 的 主要 区 别 概述 如 下 。 


。asyncio,Task 对 象 差不多 与 threading. Thread 对 象 等 效 。Victor 
Stinner (本章 的 特约 技术 审 校 ) 指出 , “Task 对 象 像 是 实现 协作 式 多 任 
务 的 库 (例如 gevent) 中 的 绿色 线程 (green thread) ”。 


。Task 对 象 用 于 驱动 协 程 ，Thread 对 象 用 于 调用 可 调用 的 对 象 。 
。Task 对 象 不 由 上 自己 动手 实例 化 ， 而 是 通过 把 协 程 传 给 


asyncio.async(...) KEX loop.create_task(...) 方法 获 
HY © 


获取 的 Task 对 象 已 经 排 定 了 运行 时 间 〈 例 如， 由 asyncio .async K 
数 排 定 ) ; Thread 实例 则 必须 调用 start 方法 ， 明 确 告知 让 它 运 
行 。 


在 线程 版 supervisor WAU, slow_function Wace Ginn 
数 ， 直 接 由 线程 调用 。 在 异步 版 supervisor 函数 中 ， 
slow_function Kræ E, H yield from) e 


没有 API 能 从 外 部 终止 线程 ， 因 为 线程 随时 可 能 被 中 断 ， 导 致 系统 处 于 
无 效 状 态 。 如 果 想 终止 任务 ， 可 以 使 用 Task.cancel() 实例 方法 ， 在 
协 程 内 部 抛 出 CancelledError 异常 。 协 程 可 以 在 暂停 的 yield 处 
捕获 这 个 异常 ， 处 理 终止 请 求 。 


supervisor 协 程 必须 在 main 函数 中 由 
loop.run_until_complete 方法 执行 。 


上 述 比 较 应 该 能 帮助 你 理解 ， 与 更 熟悉 的 threading 模型 相 比 ，asyncio 
是 如 何 编排 并 发 作业 的 。 


线程 与 协 程 之 间 的 比较 还 有 最 后 一 点 要 说 明 : 如 末 使 用 线程 做 过 重要 的 编 
程 ， 你 就 知道 写 出 程序 有 多 么 困难 ， 因 为 调度 程序 任何 时 候 都 能 中 断 线程 。 
必须 记 住 保留 锁 ， 去 保护 程序 中 的 重要 部 分 ， 防 止 多 步 操作 在 执行 的 过 程 中 
中 断 ， 防 止 数据 处 于 无 效 状 态 。 


而 协 程 默认 会 做 好 全 方位 保护 ， 以 防止 中 断 。 我 们 必须 显 式 产 出 才能 让 程序 
的 余下 部 分 运行 。 对 协 程 来 说 ， 无 需 保 留 锁 ， 在 多 个 线程 之 间 同 步 操 作 ， 协 
程 自身 就 会 同步 ， 因 为 在 任意 时 刻 只 有 一 个 协 程 运行 。 想 交 出 控制 权时 ， 可 
以 使 用 yield 或 yield from 把 控制 权 交 还 调度 程序 。 这 就 是 能 够 安全 地 
取消 协 程 的 原因 : 按照 定义 ， 协 程 只 能 在 暂停 的 yield 处 取消 ， 因 此 可 以 
处 理 CancelledError 异常 ， 执 行 清理 操作 。 


下 面 说 明 asyncio.Future 类 与 第 17 BATA 
concurrent.futures.Future 类 之 间 的 区 别 。 


18.1.1 asyncio.Future: 故意 不 阻塞 


asyncio.Future 类 与 concurrent .futures.Future 类 的 接口 基本 一 
致 ， 不 过 实现 方式 不 同 ， 不 可 以 互 换 。“PEP 3156—Asynchronous IO Support 
Rebooted: the'asyncio"Module” 对 这 个 不 乎 状况 是 这 样 说 的 : 


未 来 可 能 会 统一 asyncio,.Future 和 
concurrent .futures.Future 类 实现 的 期 物 〈 例 如 ， 为 后 者 添加 兼 
X yield from 的 iter Fy) 。 


如 17.1.3 节 所 述 ， 期 物 只 是 调度 执行 某 物 的 结果 。 在 asyncio 包 中 ， 
BaseEventLoop.create_task(...) 方法 接收 一 个 协 程 ， 排 定 它 的 运行 
时 间 ， 然 后 返回 一 个 asyncio. Task 实例 一 ”也 是 asyncio.Future 类 
的 实例 ， 因 为 Task 是 Future 的 子 类 ， 用 于 包装 协 程 。 这 与 调用 
Executor.submit(...) 方法 创建 concurrent,.,futures.Future 实 
例 是 一 个 道理 。 


与 concurrent .futures,.Future 类 似 ，asyncio.Future 类 也 提供 了 
.done() ` .add_done_callback(...) F .result() 等 方法 。 前 两 个 
方法 的 用 法 与 17.1.3 TAMA — I, 不过, result( ) 方法 差别 很 大 。 


asyncio.Future 类 的 .result( ) 方法 没有 参数 ， 因 此 不 能 指定 超时 时 
间 。 此 外 ， 如 果 调 用 .result( ) 方法 时 期 物 还 没 运行 完毕 ， 那 么 
.result( ) 方法 不 会 阻塞 去 等 竺 结果， 而 是 抛 出 


asyncio.InvalidStateError 异常 。 


然而 ， 获 取 asyncio. Future 对 象 的 结果 通常 使 用 yield from， 从 中 产 
出 结果 ， 如 示例 18-8 所 示 。 


使 用 yield from 处 理 期 物 ， 等 待 期 物 运行 完毕 这 一 步 无 需 我 们 关心 ， 
且 不 会 阻塞 事件 循环 ， 因 为 在 asyncio 包 中 ，yield from 下 用 是 
制 权 还 给 事件 循环 。 


注意 ， 使 用 yield from 处 理 期 物 与 使 用 add_done_callback 方法 处 理 
协 程 的 作用 一 样 : 延迟 的 操作 结束 后 ， 事 件 循环 不 会 触发 回调 对 象 ， 而 是 设 
置 期 物 的 返回 值 ， 而 yield from 表达 式 则 在 暂停 的 协 程 中 生成 返回 值 ， 
恢复 执行 协 程 。 


总 之 ， 因 为 asyncio .Future 类 的 目的 是 与 yield from 一 起 使 用 ， 所 
以 通常 不 需要 使 用 以 下 方法 。 


。 无 需 调 用 my_future.add_done_callback(...)， 因 为 可 以 直接 
把 想 在 期 物 运行 结束 后 执行 的 操作 放 在 协 程 中 yield from 
my_future 表达 式 的 后 面 。 这 是 协 程 的 一 大 优势 : 协 程 是 可 以 暂停 和 
恢复 的 函数 。 


© HVA my_future.result(), AN yield from 从 期 物 中 产 出 
的 值 就 是 结果 (例如 ，result = yield from my_future) 。 


当然 ， 有 时 也 需要 使 用 .done() > .add_done_callback(...) 和 
.result( ) 方法 。 但 是 一 般 情况 下 ，asyncio.Future 对 象 由 yield 
From 驱动 ， 而 不 是 徘 调用 这 些 方法 驱动 。 


下 面 分 析 yield from 和 asyncio 包 的 API 如 何 拉 近期 物 、 任 务 和 协 程 的 
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18.1.2 ”从 期 物 、 任务 和 协 程 中 产 出 


在 asyncio 包 中 ， 期 物 和 协 程 天 系 紧密 ， 因 为 可 以 使 用 yield from 从 
asyncio.Future 对 象 中 产 出 结果 。 这 意味 着 ， 如 果 foo 是 协 程 函数 ( 调 
用 后 返回 协 程 对 象 ) ， 抑 或 是 返回 Future 或 Task 实例 的 普通 函数 ， 那 么 
可 以 这 样 写 : res = yield from foo()。 这 是 asyncio 包 的 API 中 很 
多 地 方 可 以 互 换 协 程 与 期 物 的 原因 之 一 。 


为 了 执行 这 些 操作 ， 必 须 排 定 协 程 的 运行 时 间 ， 然 后 使 用 asyncio.Task 
对 象 包装 协 程 。 对 协 程 来 说 ， 获 取 Task 对 象 有 两 种 主要 方式 。 


asyncio.async(coro_or_future, *, loop=None) 


这 个 函数 统一 了 协 程 和 期 物 : 第 一 个 参数 可 以 是 二 者 中 的 任何 一 个 。 如 
Ræ Future 或 Task 对 象 ， 那 就 原封 不 动 地 返回 。 如 果 是 协 程 ， 那 么 
async 函数 会 调用 loop.create_task(...) 方法 创建 Task 对 象 。 
loop= 关键 字 参 数 是 可 选 的 ， 用 于 传 入 事件 循环 如 果 没 有 传 入 ， 那 么 
async 函数 会 通过 调用 asyncio.get_event_loop() 函数 获取 循环 对 
Zo 


BaseEventLoop.create_task(coro) 


这 个 方法 排 定 协 程 的 执行 时 间 ， 返 回 一 个 asyncio. Task 对 象 。 如 果 
在 自 定义 的 BaseEventLoop 子 类 上 调用 ， 返 回 的 对 象 可 能 是 外 部 库 (如 
Tornado) 中 与 Task 类 兼容 的 某 个 类 的 实例 。 


Be BaseEventLoop.create_task(...) 方法 只 在 Python 3.4.2 
及 以 上 版 本 中 可 用 。 如 果 是 Python 3.3 或 Python 3.4 的 旧版 ， 要 使 用 


asyncio.async(...) 函数 ， 或 者 从 PyPI 中 安装 较 新 的 asyncio 版 
ae 


asyncio 包 中 有 多 个 函数 会 自动 (内 部 使 用 的 是 asyncio.async Hey) 
把 参数 指定 的 协 程 包装 在 asyncio,Task 对 象 中 ， 例 如 
BaseEventLoop.run_until_complete(...) Wik 


如 果 想 在 Python 控制 台 或 者 小 型 测试 脚本 中 试验 期 物 和 协 程 ， 可 以 使 用 下 述 
代码 片段 : 


3 摘自 Petr Viktorin 于 2014 年 9 月 11 日 在 Python-ideas 邮件 列表 中 发 布 的 消息 。 


>>> import asyncio 
>>> def run_sync(coro_or_future): 
loop = asyncio.get_event_loop() 
return loop.run_until_complete(coro_or_future) 


>>> a = run_sync(some_coroutine()) 


在 asyncio 包 的 文档 中 ,，“18.5.3. Tasks and coroutines” 一 万 说 明了 协 程 、 期 
物 和 任务 之 间 的 天 系 。 其 中 有 个 注解 说 道 : 


这 份 文档 把 一 些 方法 说 成 是 协 程 ， 即 使 它们 其 实 是 返回 Future 对 象 的 
普通 Python 函数 。 这 是 故意 的 ， 为 的 是 给 以 后 修改 这 些 函 数 的 实现 留 下 
余地 。 


掌握 这 些 基础 知识 后 ， 接 下 来 要 分 析 异 步 下 载 国旗 的 flags_asyncio.py 脚本 。 
E 17-1 (第 17 Æ) 中 与 依 序 下 载 版 和 线程 池 版 一 同 演 
ZN ° 


18.2 使 用 asyncio 和 aiohttp 包 下 载 


从 Python 3.4 起，asyncio 包 只 直接 支持 TCP 和 UDP。 如 果 想 使 用 HTTP 
或 其 他 协议 ， 那 么 要 借助 第 三 方 包 。 当 下 ， 使 用 asyncio 实现 HTTP 客户 
端 和 服务 器 时 ， 使 用 的 似乎 都 是 aiohttp 包 。 


示例 18-5 是 下 载 国旗 的 Hags_asyncio py 脚本 的 完整 代码 清单 。 运 作 方 式 简 
述 如 下 。 


(1) 首先 ， 在 download_many 函数 中 获取 一 个 事件 循环 ， 人 处 理 调用 
download_one AXE ACA LMFT KR 。 


(2) asyncio 事件 循环 依次 激活 各 个 协 程 。 


(3) 客户 代码 中 的 协 程 (如 get_flag) 使 用 yield from 把 职责 委托 给 库 
sores (如 aiohttp.request) 时 ， 控 制 权 交还 事件 循环 ， 执 行 之 前 排 
定 的 协 程 。 


(4) 事件 循环 通过 基于 回调 的 低层 API， 在 阻塞 的 操作 执行 得 通知 。 
(5) 获得 通知 后 ， 主 循环 把 结果 发 给 暂停 的 协 程 。 


(6) 协 程 向 前 执行 到 下 一 个 yield from 表达 式 ， 例 如 get_flag 函数 中 的 
yield from resp.read()。 事 件 循环 再 次 得 到 控制 权 ， 重 复 第 4~6 步 ， 
直到 事件 循环 终止 。 


这 与 16.9.2 节 所 见 的 示例 类 似 。 在 那个 示例 中 ， 主 循环 依次 启动 多 个 出 租车 
进程 ， 各 个 出 租车 进程 产 出 结果 后 ， 主 循环 调度 各 个 出 租车 的 下 一 个 事件 

(未 来 发 生 的 事 ) 然后 激活 队列 中 的 下 一 个 出 租车 进程 。 那 个 出 租车 仿真 
简单 得 多 ， 主 循环 易于 理解 。 不 过 ,在 asyncio 中 ， 基 本 的 流程 是 一 样 
的 : 在 一 个 单线 程 程序 中 使 用 依次 激活 队列 里 的 协 程 。 各 个 协 程 向 前 
执行 几 步 ， 然 后 把 控制 权 让 给 主 循环 ， 主 循环 再 激活 队列 里 的 下 一 个 协 程 。 


下 面 详细 分 析 示 例 18-5。 


示例 18-5 flags_asyncio.py: 使 用 asyncio 和 aiohttp 包 实 现 的 异步 
下 载 脚 本 


import asyncio 


import aiohttp @ 


from flags import BASE_URL, save_flag, show, main @ 


@asyncio.coroutine ® 
def get_flag(cc): 
url = '{}/{cc}/{cc}.gif'.format(BASE_URL, cc=cc.lower()) 
resp = yield from aiohttp.request('GET', url) @ 
image = yield from resp.read() © 
return image 


@asyncio.coroutine 

def download_one(cc): © 
image = yield from get_flag(cc) @ 
show(cc) 
save_flag(image, cc.lower() + '.gif') 


return cc 


def download_many(cc_list): 
loop = asyncio.get_event_loop() © 
to_do = [download_one(cc) for cc in sorted(cc_list)] © 
wait_coro = asyncio.wait(to_do) @ 
res, _ = loop.run_until_complete(wait_coro) @ 
loop.close() @ 


return len(res) 


if _name__ == '_ main _ 
main(download_many ) 


@ 必须 安装 aiohttp 包 ， 它 不 在 标准 库 中 。4 


4 可 以 使 用 pip install aiohttp 命令 安装 aiohttp 包 。 编者 注 


@ 重用 flags 模块 〈 见 示例 17-2) 中 的 一 些 函 数 。 
© 协 程 应 该 使 用 @asyncio.coroutine 装饰 。 


O 阻塞 的 操作 通过 协 程 实现 ， 客 户 代码 通过 yield from 把 职责 委托 给 协 
程 ， 以 便 异 步 运行 协 程 。 


© 读 取 响应 内 容 是 一 项 单独 的 异步 操作 。 
© download_one 画 数 也 必须 是 协 程 ， 因 为 用 到 了 yield frome 


@ 与 依 序 下 载 版 download_one 函数 唯一 的 区 别 是 这 一 行 中 的 yield 
from; 函数 定义 体 中 的 其 他 代码 与 之 前 完全 一 样 。 


O 获取 事件 循环 原 层 实现 的 引用 。 


© 调用 download_one 函数 获取 各 个 国 旋 ， 然 后 构建 一 个 生成 器 对 象 列 
表 。 


O 虽然 男 数 的 名 称 是 wait， 但 它 个 是 阻 春 型 夯 数 。wait 是 一 个 协 程 ， 等 
传 给 它 的 所 有 协 程 运行 完毕 后 结束 (这 是 wait 函数 的 默认 行为 ， 参 见 这 
示例 后 面 的 说 明 ) 。 


D 执行 事件 循环 ， 直 到 wait_coro 运行 结束 ; 事件 循环 运行 的 过 程 中 ， 
个 脚本 会 在 这 里 阻塞 。 我 们 忽略 run_until_complete 分 法 返回 的 第 一 个 i 
元 素 。 下 文 说 明 原 因 。 
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` 如 果 事 件 循环 是 上 下 文 管理 器 就 好 了 ， 这 样 我 们 就 可 以 使 用 with 
块 确保 循环 会 被 关闭 。 然 而 ， 实 际 情况 是 复杂 的 ， 客 户 代 码 绝 不 会 直接 
创建 事件 循环 ， 而 是 调用 asyncio.get_event_loop() 函数 ， 获 取 
事件 循环 的 引用 。 而 且 有 了 时 我 们 的 代码 不 “拥有 ”事件 循环 ， 因 此 关闭 事 
件 循环 会 出 错 。 例 如 ， 使 用 Quamash 这 种 包 实 现 的 外 部 GUI 事件 循环 

IY, Qt 库 负 责 在 退出 应 用 时 关闭 事件 循环 。 


asyncio.wait(...) 协 程 的 参数 是 一 个 由 期 物 或 协 程 构成 的 可 送 代 对 
象 ，wait 会 分 别 把 各 个 协 程 包装 进 一 个 Task 对 象 。 最 终 的 结果 是 ，wait 
处 理 的 所 有 对 象 都 通过 某 种 方式 变 成 Future 类 的 实例 。 wait Fe EEK 
数 ， 因 此 返回 的 是 一 个 协 程 或 生成 器 对 象 ; wait_coro 变量 中 存储 的 正 是 
这 种 对 象 。 为 了 驱动 协 程 ， 我 们 把 协 程 传 给 
loop.run_until_complete(...) 方法 o 


loop.run_until_complete 方法 的 参数 是 一 个 期 物 或 协 程 。 如 果 是 协 
#2, run_until_complete 方法 与 wait 函数 一 样 ， 把 协 程 包装 进 一 个 
Task 对 象 中 。 协 程 、 期 物 和 任务 都 能 由 yield from 驱动 ， 这 正 是 
run_until_complete 方法 对 wait Se al wait_coro 对 象 所 做 的 
事 。wait_coro 运行 结束 后 返回 一 个 元 组 ， 第 一 个 元 素 是 一 系列 结束 的 期 
物 ， 第 二 个 元 素 是 一 系列 未 结束 的 期 物 。 在 示例 18-5 中 ， 第 二 个 元 素 始终 为 

办 下 我 们 把 它 虐 什 给 FEZA o {HÆ wait E EIT ALES 
A 如 果 设 定 了 可 能 会 返回 未 结束 的 期 物 ， 这 两 个 参数 是 timeout 和 
return_when。 详 情 参 见 asyncio.wait 函数 的 文档 。 


注意 ， 在 示例 18-5 中 不 能 重用 flags.py 脚本 ( 见 示例 17-2) 中 的 get_flag 
函数 ， 因 为 那个 函数 用 到 了 requests 库 ， 执 行 的 是 阻塞 型 VO 操作 。 为 了 
使 用 asyncio 包 ， 我 们 必须 把 每 个 访问 网 络 的 函数 改 成 异步 版 ， 使 用 
yield from 处 理 网 络 操作 ， 这 样 才 能 把 控制 权 交 还 给 事件 循环 。 在 
get_flag 函数 中 使 用 yield from， 意 味 着 它 必 须 像 协 程 那样 驱动 。 


因此 ， 不 能 重用 flags_threadpool.py 脚本 ( 见 示例 17-3) 中 的 
download_one AX ° asf] 18-5 中 的 代码 使 用 yield from 驱动 
get_flag HAY, tt download_one 函数 本 身 也 得 是 协 程 。 每 次 请 求 


时 ，down1load_many 函数 会 创建 一 个 download_one 协 程 对 象 ， 这些 协 
程 对 象 先 使 用 asyncio,wait 协 程 包装 ， 然 后 由 
loop.run_until_complete 方法 驱动 。 


asyncio 包 中 有 很 多 新 概念 要 掌握 ， 不 过 ， 如 果 你 采用 Guido van Rossum 
建议 的 一 个 技巧 ， 就 能 轻松 地 理解 示例 18-5 Wee: DOSER, (BRIA 
yield from 关键 字 。 这 样 做 之 后 ， 你 会 发 现 示例 18-5 中 的 代码 与 纯粹 依 
序 下 载 的 代码 一 样 易 于 阅读 。 


比如 说 ， 以 这 个 协 程 为 例 : 


@asyncio.coroutine 
def get_flag(cc): 
url = '{}/{cc}/{cc}.gif'.format(BASE_URL, cc=cc.lower()) 


resp = yield from aiohttp.request('GET', url) 
image = yield from resp.read() 
return image 


Ba Ay LB ES PF ue eA ARETE], Sate ASE: 


def get_flag(cc): 
url = '{}/{cc}/{cc}.gif'.format(BASE_URL, cc=cc.lower()) 


resp = aiohttp.request('GET', url) 
image = resp.read() 
return image 


yield from foo 句法 能 防止 阻塞 ， 是 因为 当前 协 程 ( 即 包含 yield 

) 暂停 后 ， 控 制 权 回 到 事件 循环 手中 ， 再 去 驱动 其 
(hit; foo 期 物 或 协 程 运行 完毕 后 ， 把 结果 返回 给 暂停 的 协 程 ， 将 其 恢 
复 o 


在 16.7 HWA, POY yield from 的 用 法 做 了 两 点 陈述 ， 摘 要 如 下 。 

。 使 用 yield from 链接 的 多 个 协 程 最 终 必须 由 不 是 协 程 的 调用 方 驱 
动 ， 调 用 方 显 式 或 隐 式 (例如 ， 在 for 循环 中 ) 在 最 外 层 委 派生 成 器 上 
调用 next(...) 函数 或 ,send(...) 方 法 。 


。 链 条 中 最 内 层 的 子 生 成 器 必须 是 简单 的 生成 器 (只 使 用 yield) BADIA 
代 的 对 象 。 


在 asyncio 包 的 API 中 使 用 yield from 时 ， 这 两 点 都 成 立 ， 不 过 要 注意 
FRAT 。 


© 我们 编写 的 协 程 链条 始终 通过 把 最 外 层 委派 生成 器 传 给 ee 
API 中 的 某 个 函数 (A loop.run_until_complete(...)) 驱动 。 


也 就 是 说 ， 使 用 asyncio 包 时 ， 我 们 编写 的 代码 不 通过 调用 
next(...) 函数 或 .send(... ) 方法 驱 元 这 一 点 由 
asyncio 包 实 现 的 事件 循环 去 做 。 


我 们 编写 的 协 程 链 条 最 终 通过 yield from 把 职责 委托 给 asyncio 包 
中 的 某 个 协 程 范 数 或 协 程 方法 (例如 示例 18-2 中 的 yield from 
asyncio.sleep(...)) ， 或 者 其 他 库 中 实现 高 层 协 议 的 协 程 (例如 
示例 18-5 中 get_flag 协 程 里 的 resp = yield from aiohttp. 
request('GET', url)) œ 


也 就 是 说 ， 最 内 层 的 子 生成 叫 是 库 中 真正 执行 VO 操作 的 函数 ， 而 不 是 
我 们 目 己 编写 的 函数 。 


概括 起 来 就 是 : 使 用 asyncio 包 时 ， 我 们 编写 的 异步 代码 中 包含 由 
asyncio 本 身 驱 动 的 协 程 ( 即 委 派生 成 器 ) ， 而 生成 器 最 终 把 职责 委托 给 
asyncio 包 或 第 三 方 库 (如 aiohttp) 中 的 协 程 。 这 种 处 理 方式 相当 于 架 
起 了 管道 ， 让 asyncio 事件 循环 (通过 我 们 编写 的 协 程 ， 驱 动 执行 低层 异 
W/O 操作 的 库 函 数 。 


现在 可 以 回答 第 17 章 提出 的 那个 问题 了 。 


。 flags_asyncio. py 脚本 和 flags.py 脚本 都 在 单个 线程 中 运行 ， 前 者 怎么 会 
比 后 者 快 5 倍 ? 


18.3 ”避免 阻塞 型 调用 


Ryan Dahl (Node.js 的 发 明 者 ) 在 介绍 他 的 项 目 背 后 的 哲学 时 说 : “我 们 处 理 
IO 的 方式 彻底 错 了 。” 他 把 执行 硬盘 或 网 络 IO 操作 的 函数 定义 为 阻塞 型 
画 数 ， 主 张 不 能 像 对 待 非 阻塞 型 函数 那样 对 待 阻 塞 型 本 数 。 为 了 说 明 原 因 
他 展示 了 表 18-1 中 的 前 两 列 。 


5“Introduction to Node.js” 视 频 4:55 处 。 


表 18-1: 使 用 现代 的 电脑 从 不 同 的 存储 介质 中 读 取 数 据 的 延迟 情况 ， 第 三 栏 
按 比例 换算 成 具体 的 时 间 ， 便 于 人 类 理解 


存储 介质 按 比例 换算 成 < 人 类 时 间 ” 


L1 缓存 


2 


L 
RAM 250 秒 
A 


为 了 理解 表 18-1， 请 记 住 一 点 : 现代 的 CPU 拥有 GHz 数量 级 的 时 钟 频率 ， 


每 秒 钟 能 运行 几 十 亿 个 周期 。 假 设 CPU 每 秒 正 好 运行 十 亿 个 周期 ， 那 么 
CPU 可 以 在 一 秒 钟 内 读 取 L1 缓存 333 333 333 次 ， 读 取 网 络 4 次 (只 有 4 
W) 。 表 18-1 中 的 第 三 栏 是 拿 第 二 栏 中 的 各 个 值 乘 以 固定 的 因子 得 到 的 。 因 
He, EH MEAR, MEILARS HEA EEE 76 
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有 两 种 方法 能 避免 阻塞 型 调用 中 止 整个 应 用 程序 的 进程 : 
。 在 单独 的 线程 中 运行 各 个 阻塞 型 操作 
。 把 每 个 阻塞 型 操作 转换 成 非 阻塞 的 异步 调用 使 用 


多 个 线程 是 可 以 的 ， 但 是 各 个 操作 系统 线程 (Python 使 用 的 是 这 种 线程 ) 消 
耗 的 内 存 达 兆 字 节 (具体 的 量 取 决 于 操作 系统 种 类 ) 。 如 果 要 处 理 几 千 个 连 
接 ， 而 每 个 连接 都 使 用 一 个 线程 的 话 ， 我 们 负担 不 起 。 


为 了 降低 内 存 的 消耗 ， EE EA EPRE T V e -A alate 
类 似 于 所 有 并 发 机 制 中 最 古老 、 最 原始 
RIIKE MEIER ARA ERENER A PEN 
E E a 
ee 


当然 ， 只 有 异步 应 用 程序 底层 的 事件 循环 能 依靠 基础 设置 的 中 断 、 线 程 、 轮 
询 和 后 全 进程 等 ， 确 保 多 个 并 发 请 求 能 取得 进展 并 最 终 完成 ， 这 样 才能 使 用 


回调 。。 事件 循环 获得 响应 后 ， 会 回 过 头 来 调用 我 们 指定 的 回调 。 不 过 ， 如 
果 做 法 正确 ， 事 件 循环 和 应 用 代码 共用 的 主线 程 绝 不 会 阻塞 。 
6 其 实 ， 虽 然 Nodejs 不 支持 使 用 JavaScript 编写 的 用 户 级 线程 ， 但 是 在 背后 却 借助 1ibeio 库 使 用 


语言 实现 了 线程 池 ， 以 此 提供 基于 回调 的 文件 APIL ”因为 从 2014 年 起 ， 大 多 数 操作 系统 都 不 提供 
稳定 且 便 携 的 异步 文件 处 理 API T ° 


EO 


把 生成 器 当 作协 程 使 用 是 异步 编程 的 男 一 种 方式 。 对 事件 循环 来 说 ， 调 用 回 
调 与 在 暂停 的 协 程 上 调用 .send( ) 方法 效果 差不多 。 各 个 暂停 的 协 程 是 要 
消耗 内 存 ， 但 是 比 线程 消耗 的 内 存 数量 级 小 。 而 且 ， 协 程 能 避免 可 怕 的 “ 回 

WAU”; 这 一 点 会 在 18.5 HIE ° 


现在 你 应 该 能 理解 为 什么 flags_asyncio.py 脚本 的 性 能 比 flags.py 脚本 高 5 倍 
T: flags.py 脚本 依 序 下 载 ， 而 每 次 下 载 都 要 用 几 十 亿 个 CPU 周期 等 待 结 
Ro RK, CPU 同时 做 了 很 多 事 ， 只 是 没有 运行 你 的 程序 。 与 此 相 比 ， 在 
flags_asyncio.py 脚本 中 ， 在 download_many Ray ial A 
loop.run_until_complete 方法 时 ， 事 件 循环 驱动 各 个 
download_one 协 程 ， 运 行 到 第 一 个 yie1ld from 表达 式 处 ， 那 个 表达 式 
又 驱动 各 个 get_flag 协 程 ， 运行 到 第 一 个 yield from 表达 式 处 ， 调 用 
aiohttp.request(...) 函数 。 这 些 调用 都 不 会 阻塞 ， 因 此 在 零点 几 秒 内 
所 有 请 求全 部 开始 。 


asyncio 的 基础 设施 获得 第 一 个 响应 后 ， 事 件 循 环 把 响应 发 给 等 竺 结果 的 
get_flag 协 程 。 得 到 响应 后 ，get_flag 向 前 执行 到 下 一 个 yield 
from 表达 式 处 ， 调 用 resp.read() 方法 ， 然 后 把 控制 权 还 给 主 循环 。 其 
他 响应 会 陆续 返回 (因为 请 求 几乎 同时 发 出 ) 。 所 有 get_ flag 协 程 都 获 
得 结果 后 ， 委 派生 成 器 download_one 恢复 ， 保 存 图 像 文件 。 


` 为 了 尽量 提高 性 能 ，save_flag 函数 应 该 执行 异步 操作 ， 可 是 
ees: SH e 步 文 件 系 统 API (Node A) 。 如 果 这 是 应 
用 的 瓶 贷 ， 可 以 使 用 loop.run_in_executor 方法 ， 在 线程 池 中 运 
行 save_flag 函数 。 示 例 18-9 会 说 明 做 法 。 


因为 异步 操作 是 交叉 执行 的 ， 所 以 并 发 下 载 多 张 图 像 所 需 的 总 时 间 比 依 序 下 
载 少 得 多 。 我 使 用 asyncio 包 发 起 了 600 个 HTTP 请 求 ， 获 得 所 有 结果 的 
时 间 比 依 序 下 载 快 70 倍 。 


现在 回 到 那个 HTTP 客户 端 示 例 ， 看 看 如 何 显示 动态 的 进度 条 ， 并 且 恰 当地 
处 理 钳 误 。 


18.4 改进 asyncio 下 载 脚本 


17.5 节 说 过 ，flags2 系列 示例 的 命令 行 接口 相同 。 本 币 要 分 析 这 个 系列 中 
的 flags2_asyncio.py 脚本 。 例 如 ， 示 例 18-6 展示 如 何 使 用 100 个 并 发 请 求 
(-m 100) M ERROR ikrr M$ 100 MEE (-al 100) 


示例 18-6 运行 flags2_asyncio.py 脚本 


$ python3 flags2_asyncio.py -s ERROR -al 100 -m 100 


ERROR site: http://localhost :8003/flags 
Searching for 100 flags: from AD to LK 
100 concurrent connections will be used. 


73 flags downloaded. 
27 errors. 
Elapsed time: 0.64s 


Be 测试 并 发 客户 端 要 谨慎 


尽管 线程 版 和 asyncio fk HTTP 客户 端的 下 载 总 时 间 相 差 无 几 ， 但 是 
asyncio 版 发 送 请 求 的 速度 更 快 ， 因 此 很 有 可 能 对 服务 器 发 起 DoS 攻 
击 。 为 了 全 速 测试 这 些 并 发 客户 端 ， 应 该 在 本 地 搭建 HTTP 服务 器 ， 详 
号 参见 本 书 代 码 仓库 中 17- futures/countries/ 目录 里 的 README. rst Ba 


下 面 分 析 flags2_asyncio.py 脚本 的 实现 方式 。 
18.4.1 使 用 asyncio.as_completed 男 数 


在 示例 18-5 中 ， 我 把 一 个 协 程 列表 传 给 asyncio.wait 函数 ， 经 由 
loop.run_until_complete 方法 驱动 ， 全 部 协 程 运 行 完毕 后 ， 这 个 函数 

会 返回 所 有 下 载 结 果 。 可 是 ， 为 了 更 新 进度 条 ， 各 个 协 程 运行 结束 后 就 要 立 
即 获取 结果 。 在 线程 池 版 示例 中 〈 见 示例 17-14) ， 为 了 集成 进度 条 ， 我 们 
使 用 的 是 as_completed 生成 器 函数 ， 焉 好 ，asyncio 包 提 供 了 这 个 生成 
器 函数 的 相应 版 本 。 


为 了 使 用 asyncio EXM flags2 示例 ， 我 们 要 重 写 几 个 函数 ; 重 写 后 的 
函数 可 以 供 concurrent .future 版 重用 。 之 所 以 要 重 写 ， 是 因为 在 使 用 
asyncio 包 的 程序 中 只 有 一 个 主线 程 ， 而 在 这 个 线程 中 不 能 有 阻塞 型 调 

用 ， 因 为 事件 循环 也 在 这 个 线程 中 运行 。 所 以 ， 我 要 重 写 get_flag RX, 


使 用 yield from 访问 网 络 。 现 在 ， 由 于 get_flag 是 协 程 ， 
download_one 函数 必须 使 用 yield from 驱动 它 ， 因 此 
download_one 自己 也 要 变 成 协 程 。 之 前 ， 在 示例 18-5 F, 
download_one 由 download_many 驱动 : download_one 画 数 由 
asyncio. wait 函数 调用 ， 然 后 传 给 loop .run_until complete 方 
法 。 现 在 ,为 了 报告 进度 并 处 理 错误 ， 我 们 要 更 精确 地 控制 ， 所 以 我 把 
download_many 函数 中 的 大 多 数 逻 辑 移 到 一 个 新 的 协 程 
downloader_coro 中 ， 只 在 download_many 函数 中 设置 事件 循环 ， 以 
及 调度 downloader_coro 协 程 。 


示例 18-7 展示 的 是 flags2_asyncio.py 脚本 的 前 半 部 分 ， 定 义 get_flag 和 
download_one 协 程 。 示 例 18-8 列 出 余下 的 源码 ， 定 义 
downloader_coro 协 程 和 download_many 函数 。 


ra 18-7 flags2_asyncio.py: 脚本 的 前 半 部 分 ， 余 下 的 代码 在 示例 18- 
8 


import asyncio 
import collections 


import aiohttp 
from aiohttp import web 
import tqdm 


from flags2_common import main, HTTPStatus, Result, save_flag 


# 默认 设 为 较 小 的 值 ， 防 止 远程 网 站 出 错 
# 例如 503 - Service Temporarily Unavailable 
DEFAULT_CONCUR_REQ = 5 
MAX_CONCUR_REQ = 1000 


class FetchError(Exception): @ 
def _ init__(self, country_code): 
self.country_code = country_code 


@asyncio.coroutine 
def get_flag(base_url, cc): @ 
url = '{}/{cc}/{cc}.gif'.format(base_url, cc=cc.lower()) 
resp = yield from aiohttp.request('GET', url) 
if resp.status == 200: 
image = yield from resp.read() 
return image 
elif resp.status == 404: 
raise web.HTTPNotFound( ) 
else: 
raise aiohttp.HttpProcessingError( 


code=resp.status, message=resp.reason, 
headers=resp.headers) 


@asyncio.coroutine 
def download_one(cc, base_url, semaphore, verbose): © 
try: 
with (yield from semaphore): ©@ 
image = yield from get_flag(base_url, cc) © 
except web.HTTPNotFound: © 
status = HTTPStatus.not_found 
msg = 'not found' 
except Exception as exc: 
raise FetchError(cc) from exc @ 
else: 
save_flag(image, cc.lower() + '.gif') © 
status = HTTPStatus.ok 
msg = 'OK' 


if verbose and msg: 
print(cc, msg) 


return Result(status, cc) 


@ 这 个 自 定 义 的 异常 用 于 包装 其 他 HTTP 或 网 络 异常 ， 并 获取 
country_code, 以 便 报 告 错误 o 


@ get_flag 协 程 有 三 种 返回 结果 : 返回 下 载 得 到 的 图 像 ，HTTP 响应 码 为 
404 时 ， 抛 出 web .HTTPNotFound 异常 返回 其 他 HTTP 状态 码 时 ， 抛 出 
aiohttp.HttpProcessingError 异 党 2 


=j 


© semaphore 参数 是 asyncio.Semaphore 类 的 实例 。Semaphore 类 是 
同步 装置 ， 用 于 限制 并 发 请 求 数量 。 


@ 在 = yield from 表达 式 中 把 semaphore 当成 上 下 文 管理 器 使 用 ， 防 止 
阻塞 整个 系统 : 如 果 semaphore 计数 器 的 值 是 所 允许 的 最 大 值 ， 只 有 这 个 
协 程 会 阻塞 。 


with 语句 后 ，semaphore 计数 右 的 值 会 递减 ， 解 除 阻 堵 可 能 
待 同一 个 semaphore 对 象 的 其 他 协 程 实例 。 


@ 如 果 没 找到 国旗 ， 相 应 地 设置 Result 的 状态 。 


@ 其 他 异常 当 作 FetchError 抛 出 ， 传 入 国家 代码 ， 并 使 用 "PEP 3134 一 
Exception Chaining and Embedded Tracebacks”5| AH raise X from Y 句法 


链接 原来 的 异常 。 
O 这 个 函数 的 作用 是 把 国旗 文件 保存 到 硬 强 中 。 


可 以 看 出 ， 与 依 序 下 载 版 相 比 ， 示 例 18-7 中 的 get_flag 和 
download_one 函数 改动 幅度 很 大 ， 因 为 现在 这 两 个 函数 是 协 程 ， 要 使 用 
yield from 做 异步 调用 。 


对 于 我 们 分 析 的 这 种 网 络 客户 端 代码 来 说 ， 一 定 要 使 用 某 种 限 流 机 制 ， 防 止 
同 服务 器 发 起 太 多 并 发 请 求 ， 因 为 如 果 服 务 器 过 载 ， 那 么 系统 的 整体 性 能 
能 会 下 降 。flags2_threadpool.py 脚本 ( 见 示 例 17-14) 限 流 的 方法 是 ， 在 
download_many 函数 中 实例 化 ThreadPoolExecutor 类 时 把 
max_workers 参数 的 值 设 为 concur_req， 只 在 线程 池 中 启动 
concur_red 个 线程 。 在 flags2_asyncio.py 脚本 中 我 的 做 法 是 ， 在 
downloader_coro 函数 中 创建 一 个 asyncio.Semaphore 实例 (在 后 面 
的 示例 18-8 F) ， 然 后 把 它 传 给 示例 18-7 中 download_one KAJ 
semaphore 参数 。7 


“感谢 Guto Maia 指出 本 书 的 草稿 没有 说 明 Semaphore 类 。 


Semaphore 对 象 维护 着 一 个 内 部 计数 器 ， 若 在 对 象 上 调用 ,acquire() 协 
程 方 法 ， 计 数 器 则 递减 ， 若 在 对 象 上 调用 .release( ) 协 程 方法 ， 计 数 器 
则 弟 增 。 计 数 絮 的 初始 值 在 实例 化 Semaphore 时 设 定 ， 如 
downloader_coro 函数 中 的 这 一 行 所 示 : 


semaphore = asyncio.Semaphore(concur_req) 


如 果 计 数 器 大 于 去 ,那么 调用 ,acduire( ) 方法 不 会 阻塞 ， 可是， 如 果 计 
Ma NS, AA .acquire() 方法 会 阻塞 调用 这 个 方法 的 协 程 ， 直 到 其 他 
协 程 在 同一 个 Semaphore 对 象 上 调用 .release( ) 方法 ， 让 计数 器 递 
增 。 在 示例 18-7 中 ， 我 没有 调用 .acquire() 或 .release() 方法, 而 
是 在 download_one KA FÁI FIRR HE semaphore 当 作 上 下 文 管 
理 器 使用: 


with (yield from semaphore): 
image = yield from get_flag(base_url, cc) 


这 段 代码 保证 ， 任 何 时候 都 不 会 有 超过 concur_req 个 get_flag 协 程 局 
B 


[© 


现在 来 分 析 示 例 18-8 中 这 个 脚本 余下 的 代码 。 


注意 ，download_many & 


数 中 以 前 的 大 多 数 功 能 现在 都 在 downloader_coro 协 程 中 。 我 们 必须 这 
么 做 ， 因 为 必须 使 用 yield from 获取 asyncio.as_completed 函数 产 


出 的 期 物 的 结果 ， 所 以 as_completed 函数 必须 在 协 程 中 调用 。 可 是 ， 我 


不 能 直接 把 download_many 函数 改 成 协 程 ， 


因为 必须 在 脚本 的 最 后 一 行 把 


download_many 函数 传 给 flags2_common 模块 中 定义 的 main 函数 ， 可 
main 函数 的 参数 不 是 协 程 ， 而 是 一 个 普通 的 函数 。 因 此 ， 我 定义 了 


downloader_coro 协 程 ， 


download_many 函数 上 


让 它 运 行 as_completed 循环 。 现 在 ， 
只 用 于 设置 事件 循环 ， 并 把 downloader_coro Hh 
程 传 给 loop.run_until_complete 方法 ， 


调度 downloader_coro ° 


示例 18-8 flags2_asyncio.py: 接续 示例 18-7 


@asyncio.coroutine 
def downloader_coro(cc_list, 


counter = collections.Counter() 


base_url, verbose, 


concur_req): @ 


semaphore = asyncio.Semaphore(concur_req) @ 


to_do = [download_one(cc, base_url, 


to_do_iter = asyncio.as_completed(to_do) 


if not verbose: 
to_do_iter = tqdm.tqdm(to_do_iter, 
for future in to_do_iter: © 
try: 
res = yield from future © 
except FetchError as exc: ® 


semaphore, 
for cc in sorted(cc_list)] © 


verbose) 


(4) 


total=len(cc_list)) © 


country_code = exc.country_code © 
try: 
error_msg = exc.__cause__.args[0] 四 
except IndexError: 
error_msg = exc.__cause class name @ 


if verbose and error_msg: 


msg = '*** Error for {}: {}' 
print(msg.format(country_code, 


status = HTTPStatus.error 
else: 

status = res.status 
counter[status] += 1 @ 


return counter ® 


def download_many(cc_list, 
loop = asyncio.get_event_loop() 
coro = downloader_coro(cc_list, 


counts = loop.run_until_complete(coro) 


base_url, verbose, 


base_url, verbose, 


© 


error_msg) ) 


concur_req): 


concur_req) 


loop.close() ©® 
return counts 


if _ name__ == '__main__': 
main(download_many, DEFAULT_CONCUR_REQ, MAX_CONCUR_REQ) 


@ 这 个 协 程 的 参数 与 download_many 了 画 数 一 样 ， 但 是 不 能 直接 调用 ， 因 
为 它 是 协 程 画 数 ， 而 不 是 像 download_many 那样 的 普通 函数 。 
© 


创建 一 个 asyncio.Semaphore 实例 ， 最 多 人 允许 激活 concur_req 个 
使 用 这 个 计数 器 的 协 程 。 


© 多 次 调用 download_one 协 程 ， 创 建 一 个 协 程 对 象 列表 © 

O 获取 一 个 迭代 器 ， 这 个 迭代 器 会 在 期 物 运行 结束 后 返回 期 物 。 

O 把 迭代 器 传 给 tqdm 函数 ， 显 示 进 度 。 

O 达 代 运行 结束 的 期 物 ， 这 个 循环 与 示例 17-14 中 download_many 函数 里 

的 那个 十 分 相似 ; 不 同 的 部 分 主要 是 异常 处 理 ， 因 为 两 个 HITP 库 
(requests 和 aiohttp) 之 间 有 差异 。 


@ 获取 asyncio,.Future 对 象 的 结果 ， 最 简单 的 方法 是 使 用 yield 
from， 而 不 是 调用 future,result() 方法 。 


© download_one 函数 抛 出 的 各 个 异常 都 包装 在 FetchError 对 象 里 ， 并 
且 链 接 原 来 的 异常 。 


@ 从 FetchError 异 第 中 获取 错误 发 生 时 的 国家 代码 。 
© 尝试 从 原来 的 异常 (cause) 中 获取 错误 消息 。 
® 如 采 在 原来 的 异常 中 找 不 到 错误 消息 ， 使 用 所 链接 异常 的 类 名 作为 错误 消 


O RER ° 
O 与 其 他 脚本 一 样 ， 返 回 计数 器 。 


© download_many 函数 只 是 实例 化 downloader_coro 协 程 ， 然 后 通过 
run_until_complete 方法 把 它 传 给 事件 循环 。 


O 所 有 工作 做 完 后 ， 关 闭 事 件 循环 ， 返 回 counts ° 


在 示例 18-8 中 不 能 像 示 例 17-14 那样 把 期 物 映 射 到 国家 代码 上 ， 因 为 
asyncio.as_completed 函数 返回 的 期 物 与 传 给 as_completed 函数 的 
期 物 可 能 不 同 。 在 asyncio 包 内 部 ， 我 们 提供 的 期 物 会 被 蔡 换 成 生成 相同 
结果 的 期 物 。8 

8 关于 这 一 点 的 详细 讨论 ， 可 以 阅读 我 在 python-tulip 讨论 组 中 发 起 的 话题 ， 题 为 “Which other futures 


my come out of asyncio.as_completed?” ° Guido 回复 了 ， 而 且 深 入 分 析 了 as_completed 函数 的 实 
现 ， 还 说 明了 asyncio 包 中 期 物 与 协 程 之 间 的 紧密 关系 。 


因为 失败 时 不 能 以 期 物 为 键 从 字典 中 获取 国家 代码 ， 所 以 我 实现 了 自 定 义 的 
FetchError 异常 (如 示例 18-7 所 示 ) 。FetchError 包装 网 络 异常 ， 并 
关联 相应 的 国家 代码 ， 因 此 在 详细 模式 中 报告 错误 时 能 显示 国家 代码 。 如 果 
没有 错误 ， 那 么 国家 代码 是 for 循环 顶部 那个 yield from future 表达 
式 的 结果 。 


我 们 使 用 asyncio 包 实 现 的 这 个 示例 与 前 面 的 flags2_threadpool.py 脚本 具 
有 相同 的 功能 ， 这 一 话题 到 此 结束 。 接 下 来 ， 我 们 要 改进 flags2_asyncio.py 
脚本 ， 进 一 步 探 索 asyncio 包 。 


在 分 析 示 例 18-7 的 过 程 中 ， 我 发 现 save_flag 函数 会 执行 硬盘 VO 操作 ， 
而 这 应 该 异步 执行 。 下 一 节 说 明 做 法 。 


18.4.2 ”使 用 Executor 对 象 ， 防 止 阻 塞 事件 循环 


Python 社区 往往 会 忽略 一 个 事实 一 一 访问 本 地 文件 系统 会 阻塞 ， 想 当然 地 认 
为 这 种 操作 不 会 受 网 络 访问 的 高 延迟 影响 (这 也 极 难 预 料 ) 。 与 之 相 比 ， 
Node.js 程序 员 则 始终 齐 记 ， 所 有 文件 系统 函数 都 会 阻塞 ， 因 为 这 些 函 数 的 签 
名 中 指明 了 要 有 回调 。 表 18-1 已 经 指出 ,硬盘 IO 阻塞 会 浪费 几 百 万 个 
CPU 周期 ， 而 这 可 能 会 对 应 用 程序 的 性 能 产生 重大 影响 。 


在 示例 18-7 中 ， 阻 塞 型 画 数 是 save_flag。 在 这 个 脚本 的 线程 版 中 〈 见 示 
例 17-14) ，save_flag 芳 数 会 阻塞 运行 download_one 函数 的 线程 ， 但 
是 阻塞 的 只 是 众多 工作 线程 中 的 一 个 。 阻 塞 型 VO 调用 在 背后 会 释放 GIL, 
因此 另 一 个 线程 可 以 继续 。 但 是 在 flags2_asyncio.py 脚本 中 ，save_flag 
函数 阻塞 了 客户 代码 与 asyncio 事件 循环 共用 的 唯一 线程 ， 因 此 保存 文件 
上 时， 整个 应 用 程序 都 会 冻结 。 这 个 问题 的 解决 方法 是 ， 使 用 事件 循环 对 象 的 


run_in_executor 方法 。 


asyncio 的 事件 循环 在 背后 维护 着 一 个 ThreadPoolExecutor WR, R 
们 可 以 调用 run_in_executor 方法 ， 把 可 调用 的 对 象 发 给 它 执行 。 若 想 
在 这 个 示例 中 使 用 这 个 功能 ，download_one 协 程 只 有 几 行 代码 需要 改 
动 ， 如 示例 18-9 所 示 。 


示例 18-9 flags2_asyncio_executorpy: 使 用 默认 的 
ThreadPoolExecutor 对 象 运行 save_flag HR 


@asyncio.coroutine 
def download_one(cc, base_url, semaphore, verbose): 
try: 
with (yield from semaphore): 
image = yield from get_flag(base_url, cc) 
except web.HTTPNotFound: 
status = HTTPStatus.not_found 
msg = ‘not found' 
except Exception as exc: 
raise FetchError(cc) from exc 
else: 


loop = asyncio.get_event_loop() @ 
loop.run_in_executor(None, © 

save_flag, image, cc.lower() + '.gif') 
status = HTTPStatus.ok 
msg = 'OK' 


if verbose and msg: 
print(cc, msg) 


return Result(status, cc) 


@ 获取 事件 循环 对 象 的 引用 。 


Ə run_in_executor 方法 的 第 一 个 参数 是 Executor 实例 ， 如 果 设 为 
None， 使 用 事件 循环 的 默认 ThreadPoolExecutor 实例 。 


O 余下 的 参数 是 可 调用 的 对 象 ， 以 及 可 调用 对 象 的 位 置 参数 。 


` 我 测试 示例 18-9 时 ， 没 有 发 现 改 用 run_in_executor 方法 保 
存 图 像 文件 后 性 能 有 明显 变化 ， 因 为 图 像 都 不 大 (平均 13KB) 。 不 
过 ， 如 果 编 辑 flags2_common.py 脚本 中 的 save_flag 函数 ， 把 各 个 文 
件 保 存 的 字 市 数 变 成 原来 的 10 倍 CARE fp .write(img) 改 成 
fp.write(img*10)) ， 此 时 便 会 看 到 效 采 。 下 载 的 平均 字 广 数 变 成 
130KB 后 ， 使 用 run_in_executor 方法 的 好 处 就 体现 出 来 了 。 如 果 
下 载 包含 百 万 像素 的 图 像 ， 速 度 提 升 更 明显 。 


如 采 需 要 协调 异步 请 求 ， 而 不 只 是 发 起 完全 独立 的 请 求 ， 协 程 较 之 回调 的 好 
处 会 变 得 显而易见 。 下 一 市 说 明 回 调 的 问题 ， 并 给 出 解决 方法 。 


18.5 ”从 回调 到 期 物 和 协 程 


使 用 协 程 做 面 加 事件 编程 ， 需 要 下 一 番 功 夫 才能 掌握 ， 因 此 最 好 知道 ， 与 经 
典 的 回调 式 编程 相 比 ， 协 程 有 哪些 改进 。 这 束 是 本 节 的 话题 。 


只 要 对 回调 式 面向 事件 编程 有 一 定 的 经 验 ， 就 知道 “回调 地 狱 * 这 个 术语 : 如 

果 一 个 操作 需要 依赖 之 前 操作 的 结果 ， 那 束 得 租 套 回调 。 如 果 要 连续 做 3 次 

o Ais 22 KE 3 层 回 调 。 示 例 18-10 是 一 个 使 用 JavaScript 编写 
HI o 


示例 18-10 JavaScript 中 的 回调 地 狱 : PEREZ, the ARS + 


= 
培 


api_calli(request1, function (response1) { 
// 第 一 步 
var request2 = stepi(responset); 


api_call2(request2, function (response2) { 
// 第 二 步 
var request3 = step2(response2); 


api_call3(request3, function (response3) { 
// 第 三 步 
step3(response3); 


l }); 


在 示例 18-10 ¥, api_call1 `api_cal1l2 和 api_cal13 Zw, FA 
FRA RARER o AW, api_calli 从 数据 库 中 获取 结果 ，api_cal12 从 
Web 服务 器 中 获取 结果 。 这 3 个 函数 都 有 回调 。 在 JavaScript P, EIYE 
使 用 匿名 函数 实现 (在 下 壕 Python 示例 中 分 别 把 这 3 个 回调 命名 为 
stage1、stage2 和 stage3) 。 这 里 的 step1 ` step2 和 step3 是 应 用 
程序 中 的 党 规范 数 ， 用 于 人 处理 回调 接收 到 的 响应 。 


示例 18-11 展示 Python 中 的 回调 地 狱 是 什么 样子 。 
示例 18-11 Python 中 的 回调 地 狱 : 链 式 回调 


def stage1i(response1): 
request2 = stepi1(response1) 
api_call2(request2, stage2) 


stage2(response2): 
request3 = step2(response2) 
api_call3(request3, stage3) 


stage3(response3): 
step3(response3) 


api_calli(request1, stage1) 


虽然 示例 18-11 中 的 代码 与 示例 18-10 的 排 布 方式 差异 很 大 ， 但 是 作用 却 完 
全 相同 。 前 述 JavaScript 示例 也 能 改写 成 这 种 排 布 方式 〈 但 是 这 段 Python ft 
码 不 能 改写 成 JavaScript 那 种 风格 ， 因 为 lambda 表达 式 句法 上 有 限制 ) 。 


示例 18-10 和 示例 18-11 组 织 代码 的 方式 导致 代码 难以 阅读 ， -o 
每 个 函数 做 一 部 分 工作 ， 设 置 下 一 个 回调 ， 然 后 返回 ， 让 事件 循环 继续 

行 。 这 样 ， 所 有 本 地 的 上 下 文 都 会 丢失 。 执 行 下 一 个 回调 时 (例如 
stage2) ， 就 无 法 获取 request2 的 值 。 如 果 需 要 那个 值 ， 那 就 必须 依靠 
闭 包 ， 或 者 把 它 存储 在 外 部 数据 结构 中 ， 以 便 在 处 理 过 程 的 不 同 阶段 使 用 。 


在 这 个 问题 上 ， 协 程 能 发 挥 很 大 的 作用 。 在 协 程 中 ， 如 果 要 连续 执行 3 个 

步 操作 ， 只 需 使 用 yie1d3 次 ， 让 事件 循环 继续 运行 。 准 备 好 结果 后 ， in 
.send() 方法 ， 激 活 协 程 。 对 事件 循环 来 说 ， 这 种 做 法 与 调用 回调 类 似 。 
但 是 对 使 用 协 程式 异步 API 的 用 户 来 说 ， 情 况 就 大 为 不 同 了 : 3 次 操作 都 在 
同一 个 函数 定义 体 中 ， 像 是 顺序 代码 ， 能 在 处 理 过 程 中 使 用 局 部 变量 保留 整 
个 任务 的 上 下 文 。 请 看 示例 18-12。 


示例 18-12 ”使 用 协 程 和 yield from 结构 做 异步 编程 ， 无 需 使 用 回调 


@asyncio.coroutine 

def three_stages(request1): 
response1 = yield from api_calli(request1) 
# 第 一 步 
request2 = stepi(response1) 
response2 = yield from api_call2(request2) 
# 第 二 步 
request3 = step2(response2) 
response3 = yield from api_call3(request3) 
# 第 三 步 


step3(response3) 


loop.create_task(three_stages(request1)) # 必须 显 式 调度 执行 


与 前 面 的 JavaScript 和 Python 示例 相 比 ， 示 例 18-12 容易 理解 多 了 : 操作 的 
3 个 步骤 依次 写 在 同一 个 函数 中 。 这 样 ， 后 续 处 理 便 于 使 用 前 一 步 的 结果 ; 
而 且 提供 了 上 下 文 ， 能 通过 有 异常 来 报告 错误 。 


假设 在 示例 18-11 中 处 理 api_call2(request2, stage2) 调用 


(stage1 函数 最 后 一 行 ) 时 抛 出 了 IO 异常 ， 这 个 异常 无 法 在 stagel K 

数 中 捕获 ， 因 为 api_cal112 是 异步 调用 ， 还 未 执行 任何 VO 操作 就 会 立即 
返回 。 在 基于 回调 的 API 中 ， 这 个 问题 的 解决 方法 是 为 每 个 异步 调用 注册 两 
个 回调 ， 一 个 用 于 处 理 操作 成 功 时 返回 的 结果 ， 另 一 个 用 于 处 理 错误 。 一 旦 
涉及 错误 处 理 ， 回 调 地 狱 的 危害 程度 就 会 迅速 增 大 。 


与 此 相 比 ， 在 示例 18-12 中 ， 那 个 三 步 操 作 的 所 有 有 异步 调用 都 在 同一 个 函数 
中 (three_stages) ， 如 果 异 步调 用 api_call1、api_call2 和 
api_call3 会 抛 出 异常 ， 那 么 可 以 把 相应 的 yield from 表达 式 放 在 
try/except 块 中 处 理 异 常 。 


这 么 做 比 陷 入 回调 地 狱 好 多 了 ， 但 是 我 不 会 把 这 种 方式 称 为 协 程 天 堂 ， 毕 竟 
我 们 还 要 付出 代价 。 我 们 不 能 使 用 常规 的 函数 ， 必 须 使 用 协 程 ， 而 且 要 习惯 
yield from 一 一 这 是 第 一 个 障碍 。 只 要 函数 中 有 yield from, KADR 
变 成 协 程 ， 而 协 程 不 能 直接 调用 ， 即 不 能 像 示 例 18-11 中 那样 调用 
api_calli(requesti, stage1) 来 启动 回调 链 。 我 们 必须 使 用 事件 循 
环 显 式 排 定 协 程 的 执行 时 间 ， 或 者 在 其 他 排 定 了 执行 时 间 的 协 程 中 使 用 
yield from 表达 式 把 它 激活 。 如 果 示 例 18-12 没有 最 后 一 行 
(loop.create_task(three_stages(request1))) ， 那 么 什么 也 不 
REE ° 
下 面 举 个 例子 来 实践 这 个 理论 。 
每 次 下 载 发 起 多 次 请 求 
假设 保存 每 面 国旗 时 ， 我 们 不 仅 想 在 文件 名 中 使 用 国家 代码 ， 还 想 加 上 国家 
名 称 。 那 么 ， 下 载 每 面 国旗 时 要 发 起 两 个 请 求 : 一 个 请 求 用 于 获取 国旗 ， 另 
一 个 请 求 用 于 获取 图 像 所 在 目录 里 的 metadata.json 文件 (记录 着 国家 名 


称 ) 


在 同一 个 任务 中 发 起 多 个 请 求 ， 这 对 线程 版 脚本 来 说 很 容易 : 只 需 接 连 发 起 
两 次 请 求 ， 阻 塞 线程 两 次 ， 把 国家 代码 和 国家 名 称 保存 在 局 部 变量 中 ， 在 保 


存 文件 时 使 用 。 如 采 想 在 异步 脚本 中 使 用 回调 做 到 这 一 点 ， 你 会 闻 到 回调 地 
狱 中 疆 来 的 硫磺 味道 : 国家 代码 和 名 称 要 放 在 闭 包 中 传 来 传 去 ， 或 者 保存 在 
某 个 地 方 ， 在 保存 文件 时 使 用 ， 这 么 做 是 因为 各 个 回调 在 不 同 的 局 部 上 下 文 
中 运行 。 协 程 和 yield from 结构 能 缓解 这 个 问题 。 解 决 方法 虽然 没有 使 
用 多 个 线程 那么 简单 ， 但 是 比 链 式 或 能 套 回调 易于 管理 。 


示例 18-13 是 使 用 asyncio 包 下 载 国旗 脚本 的 第 3 版 ， 这 一 次 国旗 的 文件 
名 中 有 国家 名 称 。 flags2_asyncio.py 脚本 (示例 18-7 和 示例 18-8) 中 的 
download_many 函数 和 downloader_coro 协 程 没 变 ， 有 变化 的 是 下 面 
的 内 容 。 


download_one 


现在 ， 这 个 协 程 使 用 yield from 把 职责 委托 给 get_flag 协 程 和 新 
添 的 get_country 协 程 。 


get_flag 


这 个 协 程 的 大 多 数 代 码 移 到 新 添 的 http_get 协 程 中 了 ， 以 便 也 能 在 
get_country 协 程 中 使 用 。 


get_country 


这 个 协 程 获取 国家 代码 相应 的 metadata.json 文件 ， 从 文件 中 读 取 国家 名 


称 。 


http_get 
从 Web 获取 文件 的 通用 代码 。 


示例 18-13 flags3_asyncio.py: 再 定义 儿 个 协 程 ， 把 职责 委托 出 去 ， 
次 下 载 国旗 时 发 起 两 次 请 求 


@asyncio.coroutine 
def http_get(url): 


res = yield from aiohttp.request('GET', url) 
if res.status == 200: 
ctype = res.headers.get('Content-type', '').lower() 
if 'json' in ctype or url.endswith('json'): 
data = yield from res.json() @ 
else: 
data = yield from res.read() @ 
return data 


elif res.status == 404: 
raise web.HTTPNotFound( ) 
else: 
raise aiohttp.errors.HttpProcessingError ( 
code=res.status, message=res.reason, 
headers=res.headers) 


@asyncio.coroutine 

def get_country(base_url, cc): 
url = '{}/{cc}/metadata.json'.format(base_url, cc=cc.lower()) 
metadata = yield from http_get(url) © 
return metadata['country' ] 


@asyncio.coroutine 

def get_flag(base_url, cc): 
url = '{}/{cc}/{cc}.gif'.format(base_url, cc=cc.lower()) 
return (yield from http_get(url)) @ 


@asyncio.coroutine 
def download_one(cc, base_url, semaphore, verbose): 
try: 
with (yield from semaphore): © 
image = yield from get_flag(base_url, cc) 
with (yield from semaphore): 
country = yield from get_country(base_url, cc) 
except web.HTTPNotFound: 
status = HTTPStatus.not_found 
msg = 'not found' 
except Exception as exc: 
raise FetchError(cc) from exc 
else: 
country = country.replace(' ', '_') 
filename = '{}-{}.gif'.format(country, cc) 
loop = asyncio.get_event_loop( ) 
loop.run_in_executor(None, save_flag, image, filename) 
status = HTTPStatus.ok 
msg = 'OK' 


if verbose and msg: 
print(cc, msg) 


return Result(status, cc) 


@ 如 果 内 容 类 型 中 包含 'json'， 或 者 url 以 ,json 结尾 ， 那 么 在 响应 上 


调用 . json ( ) 方法 ， 解 析 响 应 ， 返 回 一 个 Python 数据 结构 
个 字典 。 


在 这 里 是 一 


Ə 否则 ， 使 用 .read ( ) 方法 读 取 原 始 字 世 。 


© metadata 变量 的 值 是 一 个 由 JSON 内 容 构建 的 Python 字典 。 


@ 这 里 必须 在 外 层 加 上 括号 ， 如 果 直 接 写 return yield from, Python 
解析 器 会 不 明 所 以 ， 报 告 句 法 错误 。 


O 我 分 别 在 semaphore 控制 的 两 个 with 块 中 调用 get_flag 和 
get_country， 因 为 我 想 尽 量 缩减 下 载 时 间 。 


在 示例 18-13 F, yield from 句法 出 现 了 9 次 。 现 在 ， 你 应 该 已 经 熟知 如 
何在 协 程 中 使 用 这 个 结构 把 职责 委托 给 另 一 个 协 程 ， 而 不 阻塞 事件 循环 。 


问题 的 关键 是 ， 知 道 何 时 该 使 用 yield from， 何 时 不 该 使 用 。 基 本 原则 很 
fai, yield from 只 能 用 于 协 程 和 asyncio.Future 实例 (包括 Task 

实例 ) 。 可 是 有 些 API 很 棘手 ， 肆 意 混 应 协 程 和 普通 的 函数 ， 例 如 下 一 节 实 
现 某 个 服务 器 时 使 用 的 Streamwriter 类 。 


示例 18-13 是 本 书 最 后 一 次 讨论 flags2 系列 示例 。 我 建议 你 自己 运行 那些 
示例 ， 有 助 于 对 HTTP 并 发 客户 端的 运作 方式 建立 直观 认识 。 你 可 以 使 用 - 
a、-e 和 -1 这 三 个 命令 行 选项 控制 下 载 的 国旗 数量 ， 还 可 以 使 用 -m 选项 
设置 并 发 下 载 数 。 此 外 ， 还 可 以 分 别 使 用 LOCAL、REMOTE、DELAY 和 
ERROR 服务 器 测试 ， 找 出 能 最 大 限度 地 利用 各 个 服务 器 的 吞吐 量 的 并 发 下 载 
数 。 如 果 想 去 掉 错误 或 延迟 ， 可 以 修改 vaurien_error_delay.sh 脚本 中 的 设 

置 o 


客户 端 脚本 到 此 结束 ， 接 下 来 使 用 asyncio 包 编 写 服务 右 。 


18.6 ”使 用 asyncio 包 编写 服务 器 


演示 TCP 服务 器 时 通常 使 用 回 显 服务 器 。 我 们 要 构建 更 好 玩 一 点 的 示例 服务 
器 ， 用 于 碍 找 Unicode 字符 ， 分 别 使 用 简单 的 TCP 协议 和 HTTP 协议 实现 。 
这 两 个 服务 器 的 作用 是 ， 让 客户 端 使 用 4.8 市 讨论 过 的 unicodedata 模 
块 ， 通 过 规范 名 称 查 找 Unicode 字符 。 图 18-2 展示 了 在 一 个 Telnet 会 话 中 访 
问 TCP 版 字符 查找 服务 器 所 做 的 两 次 查询 ， 一 次 查询 国际 象棋 棋子 字符 ， 一 
次 查询 名 称 中 包含 “sun” 的 字符 。 


eoo 4. bash Pa 
lontra:charfinder luciano$ telnet localhost 2323 

Trying 127.0.0.1... 

Connected to localhost. 

Escape character is 'A]'. 

?> chess black 


U+265A + BLACK CHESS KING 
U+265B w BLACK CHESS QUEEN 
U+265C x BLACK CHESS ROOK 
U+265D 全 BLACK CHESS BISHOP 
U+265E a BLACK CHESS KNIGHT 
U+265F 2 BLACK CHESS PAWN 

6 matches for ‘chess black' 

?> sun 

U+2600 = BLACK SUN WITH RAYS 
U+2609 œ SUN 

U+263C x WHITE SUN WITH RAYS 
U+26C5 = SUN BEHIND CLOUD 
U+2E9C = CJK RADICAL SUN 
U+2F47 日 KANGXI RADICAL SUN 
U+3230 @ PARENTHESIZED IDEOGRAPH SUN 
U+3290 @ CIRCLED IDEOGRAPH SUN 
U+C21C 4 HANGUL SYLLABLE SUN 
U+1F31E @ SUN WITH FACE 

10 matches for 'sun' 


?> AC 
Connection closed by foreign host. 
lontra:charfinder luciano$ ff 


图 18-2: 在 一 个 Telnet 会 话 中 访问 tcp_charfinder.py 服务 器 一 一 查询 “chess 


black” #U“sun” 
接 下 来 讨论 实现 方式 。 
18.6.1 使 用 asyncio 包 编写 TCP 服 务 器 


下 面 几 个 示例 的 大 多 数 逻 辑 在 charfinder.py 模块 中 ， 这 个 模块 没有 任何 并 
发 。 你 可 以 在 命令 行 中 使 用 charfinderpy 脚本 查找 字符 ， 不 过 这 个 脚本 更 为 
重要 的 作用 是 为 使 用 asyncio 包 编 写 的 服务 器 提供 支持 。charfinder.py 脚本 
的 代码 在 本 书 的 代码 仓库 中 。 


charfinder 模块 读 取 Python 内 建 的 Unicode 数据 库 ， 为 每 个 字符 名 称 中 
的 每 个 单词 建立 索引 ， 然 后 倒 排 索引 ， 存 进 一 个 字典 。 例 如 ， 在 倒 排 索引 
中 ，'SUN ' 键 对 应 的 条 目 是 一 个 集合 (set) ， 里 面 是 名 称 中 包含 'SUN' 
这 个 词 的 10 个 Unicode FIF ° 9 倒 排 索引 保存 在 本 地 一 个 名 为 
charfinder_index.pickle 的 文件 中 。 如 果 和 查询 多 个 单词 ，charfinder 会 计算 
从 索引 中 所 得 集合 的 交集 。 


| 9 在 Python 3.5 中 ， 新 增 了 4 个 名 称 中 包含 'SUN ' 的 Unicode 字符 : U+1F323 (WHITE SUN) ` 
| U+1F324 (WHITE SUN WITH SMALL CLOUD) ` U+1F325 (WHITE SUN BEHIND CLOUD) 和 


U+1F326 (WHITE SUN BEHIND CLOUD WITH RAIN) 。 一 -编者 注 


下 面 我 们 把 注意 力 集 中 在 啊 应 图 18-2 中 那 两 个 查询 的 tcp_charfinder.py 脚本 
上 。 我 要 对 这 个 脚本 中 的 代码 做 大 量 说 明 ， 因 此 把 它 分 为 两 部 分 ， 分 别 在 示 
例 18-14 和 示例 18-15 中 列 出 。 


示例 18-14 tcp_charfinder.py: 使 用 asyncio.start_server 函数 实 
现 的 简易 TCP 服务 器 ;这 个 模块 余下 的 代码 在 示例 18-15 中 


import sys 
import asyncio 


from charfinder import UnicodeNameIndex @ 


CRLF = b'\r\n' 
PROMPT = b'?> ' 


index = UnicodeNameIndex() © 


@asyncio.coroutine 
def handle_queries(reader, writer): ® 
while True: @ 
writer.write(PROMPT) # 不 能 使 用 yield from! © 
yield from writer.drain() # 必须 使 用 yield from! © 
data = yield from reader.readline() @ 
try: 
query = data.decode().strip() 
except UnicodeDecodeError: ® 
query = '\x@0' 

client = writer.get_extra_info('peername') © 
print('Received from {}: {!r}'.format(client, query)) 四 


if query: 
if ord(query[:1]) < 32: @ 
break 
lines = list(index.find_description_strs(query)) @ 
if lines: 
writer.writelines(line.encode() + CRLF for line in 
lines) ® 
writer.write(index.status(query, len(lines)).encode() + 
CRLF) ® 


yield from writer.drain() 办 
print('Sent {} results'.format(len(lines))) © 


print('Close the client socket') @ 
writer.close() ©® 


@ UnicodeNameIndex 类 用 于 构建 名 称 索引 ， 提 供 查 询 方法 。 


@ 实例 化 UnicodeNameIndex 类 时 ， 它 会 使 用 charfinder_index.pickle 文件 
《如果 有 的 话 ) ， 或 者 构建 这 个 文件 ， 因 此 第 一 次 运行 时 可 能 要 等 几 秒 钟 服 
务 器 才能 局 动 。 孔 


107 eonardo Rochael 指出 ， 可 以 在 示例 18-15 中 的 main 函数 里 使 用 loop ,run_with_executor() 
方法 ， 在 另 一 个 线程 中 构建 Unicode 名 称 索 引 ， 这 样 索 引 构建 好 之 后 ， 服 务 妖 能 立即 开始 接收 请 
求 。 他 说 得 对 ， 不 过 这 个 应 用 的 唯一 用 途 是 查询 索引 ， 因 此 那样 做 没有 多 大 好 处 。 不 过 ，Leo 建议 的 
做 法 是 个 不 错 的 练习 ， 有 兴趣 的 话 你 可 以 去 做 。 


© 这 个 协 程 要 传 给 asyncio.start_server 函数 ， 接 收 的 两 个 参数 是 
asyncio.StreamReader 对 象 和 asyncio.Streamwriter 对 象 。 


@ 这 个 循环 处 理会 话 ， 直 到 从 客户 端 收 到 控制 字符 后 退出 。 


© StreamwWriter.write 方法 不 是 协 程 ， 只 是 普通 的 函数 ， 这 一 行 代码 发 
送 ?> 提示 符 。 


© Streamwriter.drain 方法 刷新 writer 缓冲 ， 因 为 它 是 协 程 ， 所 以 必 
须 使 用 yield from 调用 。 


© StreamReader . readline 方法 是 协 程 ， 返回 一 个 bytes WR ° 


© Telnet 客户 让 山 发 送 控制 字符 时 ， 可 能 会 抛 出 UnicodeDecodeError 异 
常 ， 遇 到 这 种 情况 时 ， 为 了 简单 起 见 ， 假 装 发 送 的 是 空 字符 。 


© 返回 与 套 接 字 连接 的 远程 地 址 。 

© 在 服务 器 的 控制 台中 记录 查询 。 

@@ 如 果 收 到 控制 字符 或 者 空 字符 ， 退 出 循环 。 

O 返回 一 个 生成 器 ， 产 出 包含 Unicode 码 位 、 真 正 的 字符 和 字符 名 称 的 字符 
Se U+0039\t9\tDIGIT NINE) ; 为 了 简单 起 见 ， 我 从 中 构建 了 


O 使 用 默认 的 UTF-8 编码 把 lines 转换 成 bytes 对 象 ， 并 在 每 一 行 末尾 
添加 回 车 符 和 换行 符 ， 注 意 ， 参 数 是 一 个 生成 器 表达 式 。 


© 输出 状态 , 例如 627 matches for 'digit'。1 


1 在 Python 3.5 中 , 是 755 matches for 'digit'。- E} 


© 刷新 输出 缓冲 。 

O 在 服务 器 的 控制 台中 记录 响应 。 

O 在 服务 器 的 控制 台中 记录 会 话 结 

© Xi] Streamwriter ji ° 

handle_queries 协 程 的 名 称 是 复数 ， 因 为 它 启动 交互 式 会 话 后 能 处 理 各 
个 客户 端 发 来 的 多 次 请 求 。 


注意 ， 示 例 18-14 中 所 有 的 IO 操作 都 使 用 bytes 格式 。 因 此 ， 我 们 要 解码 
从 网 络 中 收 到 的 字符 串 ， 还 要 编码 发 出 的 字符 串 。Python 3 默认 使 用 的 编码 
是 UTF-8， 这 里 丈 隐 式 使 用 了 这 个 编码 。 


注意 一 点 ， 有 些 IO 方法 是 协 程 ， 必 须 由 yield from 驱动 ， 而 男 一 些 则 是 
普通 的 函数 。 例 如 ，Streamwriter .write 是 普通 的 函数 ， 我 们 假定 它 大 
多 数 时 候 都 不 会 阻塞 ， 因 为 它 把 数据 写 入 缓冲 ; 而 刷新 缓 神 并 真正 执行 IO 
操作 的 Streamwriter.drain 是 协 程 ,StreamReader .readline 也 是 
协 程 。 写 作 本 书 时 ，asyncio 包 的 API 文档 有 重大 的 改进 ， 明 确 标 识 出 了 
哪些 方法 是 协 程 。 


示例 18-15 接续 示例 18-14， 列 出 这 个 模块 的 main 函数 。 


示例 18-15 tcp_charfinder.py (接续 示例 18-14) : main 函数 创建 并 销 
毁 事 件 循环 和 套 接 字 服务 器 


def main(address='127.0.0.1', port=2323): @ 
port = int(port) 
loop = asyncio.get_event_loop( ) 
server_coro = asyncio.start_server(handle_ queries, address, port, 
loop=loop) @ 
server = loop.run_until_complete(server_coro) ® 
host = server.sockets[@].getsockname() ©@ 
print('Serving on {}. Hit CTRL-C to stop.'.format(host)) © 
try: 
loop.run_forever() © 
except KeyboardInterrupt: # 按 CTRL-C 键 
pass 


print('Server shutting down.') 

server.close() © 
loop.run_until_complete(server.wait_closed()) © 
loop.close() © 


if _ name__ == ' main _ 
main(*sys.argv[1:]) 四 


@ 调用 main 函数 时 可 以 不 传 入 参数 。 


@asyncio.start_server 协 程 运行 结束 后 ， 返 回 的 协 程 对 象 返 回 一 
asyncio.Server 实例 ， 即 一 个 TCP 套 接 字 服 务 器 。 


© 驱动 server_coro 协 程 ， 启 动 服务 器 (server) 。 
@ 获取 这 个 服务 器 的 第 一 个 套 接 字 的 地 址 和 端口 ， 然 后 .……. 


© .…. 在 服务 右 的 控制 台中 显示 出 来 。 这 是 这 个 脚本 在 服务 器 的 控制 合 中 显 
示 的 第 一 个 输出 。 


O 运行 事件 循环 main 函数 在 这 里 阻塞 ， 直 到 在 服务 器 的 控制 台中 按 
CTRL-C 键 才 会 关闭 。 


@ 关闭 服务 器 。 


© server .wait_closed() 方法 返回 一 个 期 物 ， 调 用 
loop.run_until_complete 方法 ， 运 行 期 物 。 


© 弘 止 事件 循环 。 


© 这 是 处 理 可 选 的 命令 行 参数 的 简便 方式 : 展开 sys .argv[1:]， 传 给 
main 函数 ， 未 指定 的 参数 使 用 相应 的 默认 值 。 


注意 ，run_until_complete 方法 的 参数 是 一 个 协 程 (start_server 
方法 返回 的 结果 ) 或 一 个 Future WR (server.wait_closed 方法 返回 
的 结果 ) 。 如 果 传 给 run_until_complete 方法 的 参数 是 协 程 ， 会 把 协 程 
包装 在 Task 对 象 中 。 


仔细 查看 tcp_charfinder py 脚本 在 服务 器 控制 台中 生成 的 输出 (如 示例 18- 
16) ， 更 易于 理解 脚本 中 控制 权 的 流动 。 


示例 18-16 tcp_charfinder.py: 这 是 图 18-2 所 示 会 话 在 服务 器 端的 输出 


$ python3 tcp_charfinder.py 
Serving on ('127.0.0.1', 2323). Hit CTRL-C to stop. @ 


Received from ('127.0.0.1', 62910): 'chess black' @ 
Sent 6 results 

Received from ('127.0.0.1', 62910): 'sun' © 

Sent 10 results 

Received from ('127.0.0.1', 62910): '\x00' @ 
Close the client socket © 


@ 这 是 main 函数 的 输出 。 
@ handle_queries 协 程 中 那个 while 循环 第 一 次 迭代 的 输出 。 


© 那个 while 循环 第 二 次 迭代 的 输出 。 吕 


2 在 Python 3.5 PÆ Sent 14 results。 参 见 本 小 节 开 头 的 编者 注 。 一 一 编者 注 


O APF CTRL-C 键 ， 服 务 器 收 到 控制 字符 ， 关 闭会 话 。 
@ 客户 问 套 接 字 关 闭 了 ， 但 是 服务 句 仍 在 运行 ， 准 备 为 其 他 客户 端 提供 服 


务 。 


JER, main 函数 几乎 会 立即 显示 Serving on... 消息 ， 然 后 在 调用 
loop.run_forever( ) 方法 时 阻塞 。 在 那 一 点 ， 控 制 权 流动 到 事件 循环 
中 ， 而 且 一 直 竺 在 那里 ， 不 过 偶尔 会 回 到 handle_queries 协 程 ， 这 个 协 
程 需要 等 竺 网络 发 送 或 接收 数据 时 ， 欣 制 权 又 交还 事件 循环 。 在 事件 循环 运 
行 期 间 ， 只 要 有 新 客户 端 连接 服务 器 就 会 启动 一 个 handle_queries 协 程 
实例 。 因 此 ， 这 个 简单 的 服务 器 可 以 并 发 处 理 多 个 客户 端 。 出 现 
KeyboardInterrupt 异常 ， 或 者 操作 系统 把 进程 杀 死 ， 服 务 絮 会 关闭 。 


tcp_charfinder.py 脚本 利用 asyncio 包 提 供 的 高 层 流 API， 有 现成 的 服务 器 
可 用 ， 所 以 我 们 只 需 实现 一 个 处 理 程序 (普通 的 回调 或 协 程 ，。 此 外 ， 
asyncio 包 受 Twisted 框架 中 抽象 的 传送 和 协议 启发 ， 还 提供 了 低层 传送 和 
协议 API。 详 情 请 参见 asyncio 包 的 文档 ， 里 面 有 一 个 使 用 低层 API 实现 
的 TCP 回 显 服务 器 。 


FPEM HTTP 版 字符 查找 服务 器 。 
18.6.2 ”使 用 aiohttp 包 编写 Web 服 务 器 
asyncio 版 国旗 下 载 示 例 使 用 的 aiohttp 库 也 支持 服务 器 端 HITP， 我 就 


使 用 这 个 库 实 现 了 http_charfinderpy 脚本 。 图 18-3 是 这 个 简易 服务 器 的 Web 
界面 ， 显 示 搜 索 “cat face” 表 情 符 号 得 到 的 结 


e09 j Charfinder x | + x 
| SE 


(€ ) @ localhost:8888/7query=cat+face —_ i E\(Q serch > TA tO 


Examples: bismillah, black, Braille, cat, chess, circled, digit, dot, Ethiopic, face, hexagram, Malayalam, mark, operator, Roman, symbol 


cat face find | 10 matches for 'cat face' 


U+1F431 [fj CAT FACE 

U+1F638 & GRINNING CAT FACE WITH SMILING EYES 
U+1F639 & CAT FACE WITH TEARS OF JOY 

U+1F63A & SMILING CAT FACE WITH OPEN MOUTH 
U+1F63B & SMILING CAT FACE WITH HEART-SHAPED EYES 
U+1F63C & CAT FACE WITH WRY SMILE 

U+1F63D &§ KISSING CAT FACE WITH CLOSED EYES 
U+1F63E @ POUTING CAT FACE 

U+1F63F Ë CRYING CAT FACE 

U+1F640 局 WEARY CAT FACE 


Al 18-3: 浏览 器 窗口 中 显示 在 http_charfinder.py 服务 器 中 搜索 “cat face” 4 
到 的 结果 


Be 有 些 浏 览 器 显示 Unicode 字符 的 效果 比 其 他 浏览 器 好 。 图 18-3 
中 的 截图 在 OS X 版 Firefox X bias PRR, RE Safari 中 也 得 到 了 相同 
的 结果 。 但 是 ， 运 行 在 同一 台 设 备 中 的 最 新 版 Chrome 和 Opera 却 不 能 
显示 猪 脸 等 表情 符号 。 不 过 其 他 搜索 结果 (例如 “chess”) 正常 ， 因 此 这 
可 能 是 0SX 版 Chrome 和 Opera 的 字体 问题 。 


我 们 先 分 析 http_charfinder.py 脚本 中 最 重要 的 后 半 部 分 : 启动 和 关闭 事件 循 
环 与 HTTP 服务 器 。 参 见 示例 18-17。 


示例 18-17 http_charfinder.py: main 和 init 函数 


@asyncio.coroutine 
def init(loop, address, port): @ 
app = web.Application(loop=loop) @ 
app.router.add_route('GET', '/', home) ® 
handler = app.make_handler() ©@ 
server = yield from loop.create_server(handler, 
address, port) © 
return server.sockets[0].getsockname() © 


def main(address="127.0.0.1", port=8888): 
port = int(port) 
loop asyncio.get_event_loop() 
host loop.run_until_complete(init(loop, address, port)) @ 


print('Serving on {}. Hit CTRL-C to stop.'.format(host) ) 
try: 
loop.run_forever() ® 
except KeyboardInterrupt: # 按 CTRL-C 键 
pass 
print('Server shutting down.') 
loop.close() © 


if _ name__ == ' main _ 
main(*sys.argv[1: ]) 


@ init 协 程 产 出 一 个 服务 器 ， 交 给 事件 循环 驱动 。 


@ aiohttp.web.Application 类 表示 Web 应 用 .…… 


©...... 通过 路 由 把 URL Beste SI aE; 这里， 把 GET / 路 由 映射 
到 home 函数 上 (参见 示例 18-18) ° 


@ app.make_handler 方法 返回 一 个 aiohttp.web.RequestHandler 
实例 ， 根 据 app 对 象 设置 的 路 由 处 理 HTTP 请 求 。 


© create_server 方法 创建 服务 器 ， 以 handler 为 协议 处 理 程序 ， 并 把 
服务 器 绑 定 在 指定 的 地 址 (address) 和 端口 (port) 上 。 


@ 返回 第 一 个 服务 器 套 接 字 的 地 址 和 端口 。 

@ 运行 init 函数 ， 局 动 服务 各， 获取 服务 器 的 地 址 和 端口 。 

O 运行 事件 循环 ， 控 制 权 在 事件 循环 手 上 时 ，main 函数 会 在 这 里 阻塞 。 
© 关闭 事件 循环 。 


我 们 已 经 熟悉 了 asyncio 包 的 API， 现 在 可 以 对 比 一 下 示例 18-17 与 前 面 
的 TCP 示例 〈 见 示例 18-15) ， 看 它们 创建 服务 器 的 方式 有 何不 同 。 


在 前 面 的 TCP 示例 中 ， 服 务 器 通过 main 函数 中 的 下 面 两 行 代码 创建 并 排 定 
运行 时 间 : 


server_coro = asyncio.start_server(handle_queries, address, port, 
loop=loop ) 


server = loop.run_until_complete(server_coro) 


在 这 个 HTTP 示例 中 ，init 函数 通过 下 述 方 式 创 建 服务 器 : 


server = yield from loop.create_server(handler, 
address, port) 


但 是 init eh, Sky ES tte main 函数 中 的 这 


host = loop.run_until_complete(init(loop, address, port)) 


asyncio.start_server 函数 和 loop.create_server TIRARE 
程 ， 返回 的 结果 都 是 asyncio.Server 对 象 。 为 了 启动 服务 器 并 返回 服务 
句 的 3 引用， 这 两 个 协 程 都 要 由 他 人 驱动 ， 完 成 运行 。 在 TCP 示例 中 ， 做 法 是 
VAR loop.run_until_complete(server_coro), 其 中 
server_coro 是 asyncio.start_server 函数 返回 的 结果 。 在 HTTP 
示例 中 ，create_server 方法 在 init 协 程 中 的 一 个 yield from 表达 
式 里 调用 ， 而 init 协 程 则 由 main 函数 中 的 
loop.run_until_complete(init(...)) 调用 驱动 。 


我 提 到 这 一 点 是 为 了 强调 之 前 讨论 过 的 一 个 基本 事实 ; 只 有 驱动 协 程 ， 协 程 
才能 做 事 ， 而 驱动 asyncio. coroutine 装饰 的 协 程 有 两 种 方法 ， 要 么 使 
Ħ yield from， 要 么 传 给 asyncio 包 中 某 个 参数 为 协 程 或 期 物 的 函数 ， 

例如 run_until_complete ° 


示例 18-18 列 出 home 函数 。 根 据 这 个 HTTP 服务 器 的 配置 ，home 函数 用 
于 处 理 /〈 根 ) URL e 


示例 18-18 http_charfinderpy: home 函数 


def home(request): @ 
query = request.GET.get('query', '').strip() @ 
print('Query: {!r}'.format(query)) © 
if query: @ 
descriptions = list(index.find_descriptions(query) ) 
res = '\n'.join(ROW_TPL.format(**vars(descr) ) 
for descr in descriptions) 
msg = index.status(query, len(descriptions) ) 
else: 
descriptions = = [] 
res = 
msg = ‘Enter words describing characters. ' 


html = template.format(query=query, result=res, © 


message=msg) 
print('Sending {} results'.format(len(descriptions))) © 
return web.Response(content_type=CONTENT_TYPE, text=html) @ 


@ 一 个 路 由 处 理 函 数 ， 参 数 是 一 个 aiohttp .web .Reduest 实例 。 


@ 获取 查询 字符 串 ， 去 掉 首 尾 的 空白 。 
© 在 服务 器 的 控制 台中 记 杂 查询 。 


O 如 有 果 有 查询 字符 串 ， 从 索引 (index) 中 找到 结果 ， 使 用 HTML 表格 中 
的 行 泻 染 结果 ， 把 结果 赋值 给 res 变量 ， 再 把 状态 消息 赋值 给 msg 变量 。 


© jÈ 4t HTML 页 面 。 
O 在 服务 器 的 控制 台中 记录 响应 。 
O 构建 Response 对 象 ， 将 其 返回 。 


注意 ，home pÆ, MAELA RA yield from 表达 式 ， 也 没 必 要 
是 协 程 。 在 aiohttp 包 的 文档 中 ，add_route 方法 的 条 目下 面 说 道 , “如 
果 处 理 程序 是 普通 的 函数 ， 在 内 部 会 将 其 转换 成 协 程 ”。 


示例 18-18 中 的 home 画 数 虽然 简单 ， 却 有 一 个 缺点 。home 是 普通 的 画 
数 ， 而 不 是 协 程 ， 这 一 事实 预示 着 一 个 更 大 的 问题 : 我 们 需要 重新 思考 如 何 
实现 Web 应 用 ， 以 获得 高 并 发 。 下 面 来 分 析 这 个 问题 。 


18.6.3 ”更 好 地 支持 并 发 的 智能 客户 端 


示例 18-18 中 的 home 函数 很 像 是 Django 或 Flask 中 的 视图 函数 ， 实 现 方 式 
完全 没有 考虑 异步 :获取 请 求 ， 从 数据 库 中 读 取 数据 ， 然 后 构建 响应， 渲染 
完整 的 HTML 页 面 。 在 这 个 示例 中 ， 存 储 在 内 存 中 的 UnicodeNameIndex 
对 象 是 “数据 库 ?。 但 是 ， 对 真正 的 数据 库 来 说 ， 应 该 异步 访问 ， 否 则 在 等 符 
数据 库 查 询 结果 的 过 程 中 ， 事 件 循环 会 阻塞 。 例 如 ，aiopg 包 提 供 了 一 个 异 
PostgreSQL 驱动 ， 与 asyncio PHA; 这 个 包 文 持 使 用 yield from 
发 送 查 询 和 获取 结果 ， 因 此 视图 函数 的 表现 与 真正 的 协 程 一 样 。 


除了 防止 阻塞 调用 之 外 ， 高 并 发 的 系统 还 必须 把 复杂 的 工作 分 成 多 步 ， 以 保 
持 敏捷 。http_charfinder.py 服务 器 表明 了 这 一 点 : 如 果 搜 索 “cjk”， 得 到 的 结 
果 是 75 821 个 中 文 、 日 文 和 韩文 象形 文字 。 了 3 此 时 ，home 函数 会 返回 一 个 
5.3MB 的 HTML 文档 ， 显 示 一 个 有 75 821 行 的 表格 。 


SS 


3 这 正 是 CJK 表示 的 意思 : 不 断 增加 的 中 文 、 日 文 和 韩文 字符 。 以 后 的 Python 版 本 支持 的 CIK 象 
文字 数量 可 能 会 比 Python 3.4 多 。 


我 在 自己 的 设备 中 使 用 命令 行 HTTP 客户 端 curl 访问 架设 在 本 地 的 
http_charfinder.py 服务 器 ， 查 询 “cjk”，2 秒 钟 后 获得 响应 。 浏 览 絮 要 布局 包 
含 这 么 大 一 个 表格 的 页 面 ， 用 的 时 间 会 更 长 。 当 然 ， 大 多 数 查 询 返 回 的 响应 
要 小 得 多 : 查询 “braille* 返 回 256 行 结果， 页面 大 小 为 19KB， 在 我 的 设备 中 
用 时 0.017 秒 。 可 是 ， 如 果 服 务 器 要 用 2 秒 钟 处 理 “cjk” 查 询 ， 那 么 其 他 所 有 
客户 端 都 至 少 要 等 2 秒 这 是 不 可 接受 的 。 


避免 响应 时 间 太 长 的 方法 是 实现 分 页 : 首次 至 多 返回 (比如 说 ) 200 行 ， 用 
户 点 击 链接 或 滚动 页 面 时 再 获取 更 多 结果 。 如 有 果 碍 看 本 书 代 人 码 仓库 中 的 
charfinder.py 模块 ， 你 会 发 现 UnicodeNameIndex.find_descriptions 
方法 有 两 个 可 选 的 参数 一 一 start 和 stop， 这 是 偏 移 值 ， 用 于 支持 分 页 。 
因此 ， 我 们 可 以 返回 前 200 个 结果 ， 当 用 户 想 查看 更 多 结果 时 ， 再 使 用 
AJAX 或 WebSockets 发 送 下 一 批 结 果 。 


实现 分 批发 送 结果 所 需 的 大 多 数 代 码 都 在 浏 贤 器 这 一 端 ， 因 此 Google 和 所 
有 大 型 互联 网 公司 都 大 量 依赖 客户 端 代码 构建 服务 : 智能 的 异步 客户 端 能 更 
好 地 使 用 服务 紫 资 源 。 


虽然 智能 的 客户 端 甚至 对 老式 Django 应 用 也 有 帮助 ， 但 是 要 想 真 正 为 这 种 
客户 端 服务 ， 我 们 需要 全 方位 支持 异步 编程 的 框架 ， 从 处 理 HTTP RKA 
应 到 访问 数据 库 ， 全 都 支持 异步 。 如 果 想 实现 实时 服务 ， 例 如 游戏 和 以 
WebSockets 支持 的 媒体 流 ， 那 就 尤其 应 该 这 么 做 。1 


4 在 “杂谈 ”中 我 会 进一步 说 明 这 个 趋势 。 


这 里 留 一 个 练习 给 读者 :改进 http_charfinder.py 脚本 ， 添 加 下 载 进 度 条 。 此 
外 还 有 一 个 附加 题 : 实现 Twitter 那样 的 “无 限 滚动 ”。 做 完 这 个 练习 后 ， 我 们 
对 如 何 使 用 asyncio 包 做 异步 编程 的 讨论 就 结束 了 。 


18.7 本章 小 结 


本 章 介绍 了 在 Python 中 做 并 发 编程 的 一 种 全 新 方式 ， 这 种 方式 使 用 yield 
from、 协 程 、 期 物 和 asyncio 事件 循环 。 首 先 ， 我 们 分 析 了 两 个 简单 的 示 
例 一 一 两 个 旋转 指针 脚本 ， 仔 细 对 比 了 使 用 threading 模块 和 asyncio 
包 处 理 并 发 的 异同 。 


然后 ， 本 章 讨 论 了 asyncio.Future 类 的 细节 ， 重 点 讲述 它 对 yield 
fronm 的 支持 ， 以 及 与 协 程 和 asyncio.Task 类 的 关系 。 接 下 来 分 析 了 
asyncio 版 国旗 下 载 脚本 。 


然后 ， 本 章 分 析 了 Ryan Dahl 对 VO 延迟 所 做 的 统计 数据 ， 还 说 明了 阻塞 调 
用 的 影响 。 尽 管 有 些 函 数 必 然 会 阻塞 ， 但 是 为 了 让 程序 持续 运行 ， 有 两 种 解 
决 万 案 可 用 : 使 用 多 个 线程 ， 或 者 异步 调用 一 一 后 者 以 回调 或 协 程 的 形式 实 
现 。 


其 实 ， 异 步 库 依赖 于 低层 线程 《直至 内 核 级 线程 ) ， 但 是 这 些 库 的 用 户 无 需 
创建 线程 ， 也 无 需 知 道 用 到 了 基础 设施 中 的 低层 线程 。 在 应 用 中 ， 我 们 只 需 
确保 没有 阻塞 的 代码 ， 事 件 循环 会 在 背后 处 理 并 发 。 异 步 系 统 能 避免 用 户 级 
线程 的 开销 ， 这 是 它 能 比 多 线程 系统 管理 更 多 并 发 连接 的 主要 原因 。 


之 后 ， 我 们 又 回 到 下 载 国 旗 的 脚本 ， 添 加 进度 条 并 处 理 错误 。 这 需要 大 幅度 
重 构 ， 特 别 是 要 把 asyncio.wait Heke asyncio.as_completed % 
数 ， 因 此 不 得 不 把 download_many 函数 的 大 多 数 功能 移 到 新 添 的 
downloader_coro 协 程 中 ， 这 样 我 们 才能 使 用 yield from 从 
asyncio.as_completed 函数 生成 的 多 个 期 物 中 逐个 获得 结果 。 


然后 ， 本 章 说 明了 如 何 使 用 loop.run_in_executor 方法 把 阻塞 的 作业 
(例如 保存 文件 ) 委托 给 线程 池 做 。 


接着 ， 本 章 讨 论 了 如 何 使 用 协 程 解决 回调 的 主要 问题 : 执行 分 成 多 步 的 异步 
任务 时 丢失 上 下 文 ， 以 及 缺少 处 理 错误 所 需 的 上 下 文 。 


然后 义举 了 一 个 例子 ， 在 下 载 国 旋 图 像 的 同时 获取 国家 名 称 ， 以 此 说 明 如 何 
结合 协 程 和 yield from 避免 所 谓 的 回调 地 狱 。 如 果 忽 略 yield from 天 
RF, IEH yield from 结构 实现 异步 调用 的 多 步 过 程 看 起 来 类 似 于 顺序 
执行 的 代码 。 


本 章 最 后 两 个 示例 是 使 用 asyncio 包 实 现 的 TCP 和 HTTP 服务 器 ， 用 于 按 
名 称 搜索 Unicode 字符 。 在 分 析 HTTP 服务 器 的 最 后 ， 我 们 讨论 了 客户 端 
JavaScript 对 服务 器 端 提 供 高 并 发 支持 的 重要 性 。 使 用 JavaScript, 客户 端 可 
以 按 需 发 起 小 型 请 求 ， 而 不 用 下 载 较 大 的 HTML 页 面 。 


18.8 ”延伸 阅读 


Python 核心 开发 者 Nick Coghlan 在 2013 年 1 月 对 “PEP 3156 一 Asynchronous 
IO Support Rebooted: the'asyncio"Module” 草 案 评 论 如 下 : 


在 这 个 PEP 的 开头 部 分 应 该 言 简 意 凡 地 说 明 等 竺 异步 期 物 返回 结果 的 两 
个 
M API: 


(1)f.add_done_callback(...) 


(2) 协 程 中 的 yield from f (期 物 运 行 结束 后 恢复 协 程 ， 期 物 要 么 返 
HR, RAH Gees) 


此 刻 ， 这 两 个 API 深 埋 在 众多 的 API 中 ， 而 它们 是 理解 核心 事件 循环 层 
之 上 各 种 事物 交互 方式 的 关键 。5 


15 摘 自 2013 年 1 月 20 日 发 布 在 python-ideas 邮件 列表 
PEP 3156 做 出 了 上 述评 论 。 


和 


的 一 个 消息 ， 在 这 个 消息 


，Coghlan 对 


PEP 3156 的 作者 Guido van Rossum 没有 采纳 Coghlan 的 建议 。 实 现 PEP 
3156 的 初期 ，asyncio 包 的 文档 虽然 十 分 详细 ， 但 对 用 户 并 不 友好 。 
asyncio 包 的 文档 有 9 个 .rst 文件 ，128KB， 将 近 71 页 。 在 标准 库 文档 
中 ， 只 有 “Built-in Types” 一 章 有 这 么 长 ， 而 那 一 章 内 容 众 多 ， 涵 盖 了 数字 类 
型 、 序 列 类 型 、 生 成 器 、 映 射 、 集 合 、bool、 上 下 文 管理 器 ， 等 等 。 


asyncio 包 的 文档 大 部 分 是 在 讲 概念 和 API， 其 中 夹杂 着 有 用 的 示意 图 和 示 
例 ， 不 过 特别 实用 的 一 节 是 “18.5.11. Develop with asyncio””， 攻 其 中 说 明了 极 
为 重要 的 使 用 模式 。asyncio 包 的 文档 需要 用 更 多 的 内 容 来 说 明 如 何 使 用 


asyncio ° 


1 目前 是 : 18.5.9. Develop with asyncio ° 编者 注 


asyncio 包 很 新 ， 已 出 版 的 书 中 少 有 涉及 。 我 发 现 只 有 Jan Palach 写 的 
Parallel Programming with Python (Packt 出 版 社 ，2014 年 ) 一 书 中 有 一 章 讲 
到 了 asyncio， 可 惜 那 一 章 很 短 。 


不 过 ， 有 很 多 关于 asyncio 的 精彩 演讲 。 我 觉得 最 棒 的 是 Brett Slatkin 在 蒙 
特 利 尔 PyCon 2014 大 会 上 发 表 的 演讲 ， 题 为 “Fan-In and Fan-Out: The Crucial 
Components of Concurrency”， 副 标题 是 “Why do we need Tulip? (a.k.a., PEP 
3156 一 asyncio)”( 视 频 ) 。 在 30 分 钟 内 ，Slatkin 实现 了 一 个 简单 的 Web Je 
虫 示例 ， 强 调 了 asyncio 包 的 正确 用 法 。 刁 为 观众 的 Guido van Rossum fe 
到 ， 为 了 引 存 asyncio 包 ， 他 也 写 了 一 个 Web EH ° Guido 写 的 代码 不 依 
fil aiohttp 包 ， 只 用 到 了 标准 库 。Slatkin 还 写 了 一 篇 见解 深刻 的 文章 ， 题 
为 “Python's asyncio Is for Composition, Not Raw Performance”。 


Guido van Rossum 自己 的 几 个 演讲 也 是 必 看 的 ， 包 括 在 PyCon US 2013 上 所 
做 的 主题 演讲 ， 以 及 在 LinkedIn 公司 和 Twitter 大 学 所 做 的 演讲 。 此 外 ， 还 

推荐 Saul Ibarra Corretg6 的 演讲 “A Deep Dive into PEP-3156 and the New 

asyncio Module”[ 〈 约 灯 片 ， 视 频 ] 。 


在 PyCon US 2013 大 会 上 ，Dino Viehland 做 了 一 场 演讲 ， 题 为 “Using futures 
for async GUI programming in Python 3.3”， 说 明 如 何 把 asyncio 包 集 成 到 
Tkinter 事件 循环 中 。Viehland 展示 了 在 另 一 个 事件 循环 之 上 实现 
asyncio.AbstractEventLoop 接口 的 重要 部 分 是 多 么 容易 。 他 的 代码 使 
用 Tulip 编写 ， 这 是 asyncio 包 添 加 到 标准 库 中 之 前 的 名 称 。 我 修改 了 他 的 
代码 ， 以 便 支持 Python 3.4 中 的 asyncio 包 。 我 重 构 后 的 新 版 在 GitHub 

中 o 


Victor Stinner [asyncio 包 的 核心 页 献 者 ，asyncio 包 的 移植 版 Trollius 的 
作者 | 经 常 更 狐 相 关 资 源 的 链接 列表 一 “The new Python asyncio module 
aka‘tulip’” ° LEY, KÈ asyncio 资源 的 还 有 Asyncio.org 网 站 和 GitHub 中 
的 aio-libs 组 织 ， 在 这 两 个 网 站 中 能 找到 PostgreSQL ` MySQL 和 多 种 
NoSQL 数据 库 的 异步 驱动 。 我 没有 测试 过 这 些 驱 动 ， 不 过 写作 本 书 时 ， 这 
些 项 目 好 像 十 分 活跃 。 


Web 服务 将 成 为 asyncio 包 的 重要 使 用 场景 。 你 的 代码 有 可 能 要 依赖 
Andrew Svetlov 领衔 开发 的 aiohttp 库 。 你 可 能 还 想 架 设 环境 ， 测 试 错误 
处 理 代 码 ， 在 这 方面 ，Alexis Métaireau 和 Tarek Ziadk 开 发 的 Vaurien (“yE 
TCP R) 极其 有 用 。Vaurien 是 为 Mozilla Services 项 目 开 发 的 ， 用 于 在 程 
序 与 后 端 服务 器 〈 例 如 ， 数 据 库 和 Web 服务 提供 方 ) 之 间 的 TCP 流量 中 引 
入 延迟 和 随机 错误 。 


至 尊 循环 


有 很 长 一 段 时 间 ， 大 多 数 Python 高 手 开发 网 络 应 用 时 喜欢 使 用 异步 编 
程 ， 但 是 总 会 遇 到 一 个 问题 一 挑选 的 库 之 间 不 兼容 。Ryan Dahl $e 
到 ，Twisted 是 Node.js 的 灵感 来 源 之 一 ;而 在 Python 中 ，Tornado 拥护 
使 用 协 程 做 面向 事件 编程 。 


在 JavaScript 社区 里 还 有 和 争论， 有 些 人 推 深 使 用 简单 的 回调 ， 而 有 些 人 
提倡 使 用 与 回调 处 于 竞争 地 位 的 各 种 高 层 抽 象 方式 。 Node.js 早期 版 本 的 
API 使 用 的 是 Promise 对 象 (类 似 于 Python 中 的 期 物 ) ， 但 是 后 来 Ryan 
Dahl 决定 统一 只 用 回调 。James Coglan 认为 ，Node.js 在 这 一 点 上 错过 


了 大 好 良机 (https://blog.jcoglan.com/2013/03/30/callbacksare-imperative- 
promises-are-functional-nodes-biggest-missed-opportunity/) ° 


Python 社区 的 争论 已 经 结束 : asyncio 包 添 加 到 标准 库 中 之 后 ， 协 程 
和 期 物 被 确定 为 符合 Python 风格 的 异步 代码 编写 方式 。 此 外 ， 
asyncio 包 为 异步 期 物 和 事件 循环 定义 了 标准 接口 ， 为 二 者 提供 了 实 
现 参考 。 


正如 “Python 之 禅 2 所 说 : 
肯定 有 一 种 一 一 通常 也 是 唯一 一 种 最 佳 的 解决 方案 
不 过 这 并 不 容易 找到 ， 因 为 你 不 是 Python 之 父 


或 许 变 成 荷兰 人 才能 理解 yield from 吧 。! 对 我 这 个 巴西 人 来 说 ， 
一 开始 并 不 易于 理解 ， 不 过 一 段 时 间 之 后 我 理解 了 。 


更 重要 的 是 ， 设 计 asyncio 包 时 考虑 到 了 使 用 外 部 包 奉 换 上 自身 的 事件 
循环 ， 因 此 才 有 asyncio.get_event_loop 和 set_event_loop 
函数 一 -二 者 是 抽象 的 事件 循环 策略 API 的 一 部 分 。 


Tornado 已 经 有 实现 asyncio.AbstractEventLoop 接口 的 类 一 一 
AsyncIOMainLoop 

(http://tornado.readthedocs.org/en/latest/asyncio.html) ， 因 此 在 同一 个 事 
件 循环 中 可 以 使 用 这 两 个 库 运 行 异 步 代 码 。 此 外 ，Quamash 项 目 也 很 有 
eX, EW asyncio 包 集 成 到 Qt 事件 循环 中 ， 以 便 使 用 PyQt 或 PySide 
开发 GUI 应用。 我 只 是 举 两 个 例子 ， 说 明 asyncio 包 能 把 面向 事件 的 
包 集 成 在 一 起 。 


智能 的 HTTP 客户 端 ， 例 如 单 页 Web 应 用 (如 Gmail) 或 智能 手机 应 
用 ， 需 要 快速 、 轻 量 级 的 响应 和 推送 更 新 。 鉴 于 这 样 的 需求 ， 服 务 器 闻 
最 好 使 用 异步 框架 ， 不 要 使 用 传统 的 Web 框架 (如 Django) 。 传 统 框 
架 的 目的 是 泻 染 完整 的 HTML 网 页 ， 而 且 不 文 持 异步 访问 数据 库 。 


WebSockets 协议 的 作用 是 为 始终 连接 的 客户 并 (例如 游戏 和 流 式 应 用 ) 
提供 实时 更 新 ， 因 此 ， 高 并 发 的 异步 服务 器 要 不 间断 地 与 成 百 上 千 个 客 
户 端 交 互 。asyncio 包 的 架构 能 很 好 地 文 持 WebSockets， 而 且 至 少 有 
两 个 库 已 经 在 asyncio 包 的 基础 上 实现 了 WebSockets 协议 : 
Autobahn|Python 和 WebSockets ° 


“实时 Web” 的 整体 发 展 趋势 迅猛 ， 这 是 Node.js 需求 量 不 断 擎 升 的 主要 

因素 ， 也 是 Python 生态 系统 积极 向 asyncio 靠拢 的 重要 原因 。 不 过 ， 

要 做 的 事 还 有 很 多 。 为 了 便于 入 门 ， 我 们 要 在 标准 库 中 提供 异步 HTTP 
服务 器 和 客户 端 API， 异 步 数据 库 API 3.0, UREA asyncio 包 构 
建 的 新 数据 库 驱 动 。 


与 Node.js 相 比 ， 含 有 asyncio A Python 3.4 最 大 的 优势 是 Python 

AS: Python H Awit R, EADEM yield from 结构 编写 的 异 
步 代码 比 JavaScript 采用 的 古老 回调 易于 维护 。 而 我 们 最 大 的 劣势 是 
Æ, Python 自 带 了 很 多 库 ， 但 是 那些 库 不 支持 异步 编程 。Node.js FEW 

生态 系统 丰富 ， 完 全 建构 在 异步 调用 之 上 。 但 是 ，Python 和 Node. js 都 
有 一 个 问题 ， 而 Go 和 Erlang 从 一 开始 就 解决 了 这 个 问题 ， 我 们 编写 的 
代码 无 法 轻松 地 利用 所 有 可 用 的 CPU 核心 。 


Python 标准 化 了 事件 循环 接口 ， 还 提供 了 一 个 异步 库 ， 这 是 一 大 进步 ， 
只 有 我 们 仁慈 的 独裁 考 能 在 众多 深入 人 心 且 高 质量 的 奉 代 方案 中 选 
择 这 种 方式 。 有 具体 实现 时 ， 他 咨询 了 多 个 重要 的 Python 异步 框架 的 作 
者 ， 其 中 受 Glyph Lefkowitz (Twisted 的 主要 开发 者 ) 的 影响 最 深 。 如 
果 你 想 知道 为 什么 asyncio.Future X5 Twisted 中 的 Deferred 类 
不 同 ， 一 定 要 阅读 Guido 在 Python-tulip 讨论 组 中 发 布 的 一 篇 文章 ， 题 
为 “Deconstructing Deferred” ° Guido 对 Twisted 这 个 最 古老 也 是 最 大 的 
Python 异步 框架 充满 敬意 ， 在 python-twisted 讨论 组 中 讨论 设计 方案 
时 ， 他 甚至 说 , “What Would Twisted Do (WWTD) ”。19 


幸好 有 Guido van Rossum 打头 阵 ， 让 Python 以 更 好 的 姿态 应 对 当前 的 
并 发 挑战 。 若 想 精 通 asyncio 包 ， 一 定 要 下 一 番 功 夫 。 可 是 ， 如 果 你 
Python 编写 并 发 网 络 应 用 ， 那 就 去 寻求 至 苯 循 环 (the One 
Loop) : 


至 尊 循 环 驭 众生 ， 至 尊 循 环 寻 众生 ， 
至 苯 循 环 引 众生 ， 普 照 众生 欣欣 采 。 


17python 之 父 Guido van Rossum 是 荷兰 人 。 一 一 译 者 注 


18 应 该 是 : PEP 249—Python Database API Specification v2.0 ° 编者 注 


194 5 Guido 于 2015 年 1 月 29 日 发 布 的 消息 ， 然 后 Glyph 立即 回复 了 这 一 消息 。 


第 六 部 分 “元 编程 


第 19 章 动态 属性 和 特性 


等 性 至 关 重 要 的 地 方 在 于 ， 特 性 的 存在 使 得 开发 者 可 以 非常 安全 并 且 确 
定 可 行 地 将 公共 数据 属性 作为 类 的 公共 接口 的 一 部 分 开放 出 来 。 


Alex Martelli 
Python 页 献 者 和 图 书 作 者 


1 (Python 技术 手册 (第 2 版 )》 第 101 页 。 (该 书 中 文 版 把 “property” 译 为 属性 ， 这 里 改 为 “特性 ”， 
他 内 容 与 原来 的 翻译 相同 。 译 者 注 ) 


在 Python 中 ， 数 据 的 属性 和 处 理 数据 的 方法 统称 属性 (attribute) 。 其 实 ， 
方法 只 是 可 调用 的 属性 。 除 了 这 二 者 之 外 ， 我 们 还 可 以 创建 特性 
(property) ， 在 不 改变 类 接口 的 前 提 下 ， 使 用 存 取 方 法 〈 即 读 值 方法 和 设 
值 方法 ) 修改 数据 属性 o 这 与 统一 访问 原则 相符 : 


管 服务 是 由 存储 还 是 计算 实现 的 ， 一 个 模块 提供 的 所 有 服务 部 应 该 通 
O SR © 


Bertrand Meyer, Object-Oriented Software Construction, 2E, p. 57. 


除了 特性 ，Python 还 提供 了 丰富 的 API， 用 于 控制 属性 的 访问 权限 ， 以 及 实 
现 动 态 属性 。 使 用 点 号 访问 属性 时 (如 obj ,attr) , Python 解释 器 会 调用 
特殊 的 方法 (如 _getattr 和 setattr ) 计算 属性 。 用 户 自己 定 
义 的 类 可 以 通过 __getattr__ 方法 实现 “虚拟 属性 *"， 当 访问 不 存在 的 属性 

时 (4 obj.no_such_attribute) ， 即 时 计算 属 性 的 值 。 


动态 创建 属性 是 一 种 元 编程 ， 框 染 的 作者 经 常 这 么 做 。 然 而 ， 在 Python 中 ， 


相关 的 基础 技术 十 分 简单 ， 任 何人 都 可 以 使 用 ， 甚 至 在 日 常 的 数据 转换 任务 
中 也 能 用 到 。 下 面 以 这 种 任务 开启 本 章 的 话题 。 


19.1 使 用 动态 属性 转换 数据 


在 接 下 来 的 几 个 示例 中 ， 我 们 要 使 用 动态 属性 处 理 O'Reilly 为 OSCON 2014 
大 会 提供 的 JSON 格式 数据 源 。 示 例 19-1 是 那个 数据 源 中 的 4 个 记录 。” 


3 关于 这 个 数据 源 及 其 使 用 规则 ， 请 阅读 “DIY: OSCON schedule” 一 文 。 那 个 JSON 文件 有 744KB,， 我 
写作 本 书 时 还 在 网 上 。 本 书 代码 仓库 中 的 oscon-schedule/data/ 目录 里 有 个 副本 ， 文 件 名 为 


osconfeed.json ° 


mt 


示例 19-1 osconfeed.json 文件 中 的 记录 示例 ;， 节 上 略 了 部 分 字段 的 内 


{ "Schedule": 
{ "conferences": [{"serial": 115 }], 
"events": [ 
{ "serial": 34505, 
"name": "Why Schools Don’t Use Open Source to Teach 
Programming", 
"event_type": "40-minute conference session", 
"time_start": "2014-07-23 11:30:00", 
"time_stop": "2014-07-23 12:10:00", 
"venue_serial": 1462, 
"description": "Aside from the fact that high school 
programming...", 
"website_url": 
"http://oscon.com/oscon2014/public/schedule/detail/34505", 
"Speakers": [157509], 
"categories": ["Education"] } 
], 
"speakers": [ 
{ "serial": 157509, 
"name": "Robert Lefkowitz", 
"photo": null, 
"url": "http://sharewave.com/", 
"position": "CTO", 
"affiliation": "Sharewave", 
"twitter": "sharewaveteam", 
"bio": "Robert ‘roml’ Lefkowitz is the CTO at Sharewave, a 


"venues": [ 
{ "serial": 1462, 
"name": "F151", 
"category": "Conference Venues" } 


那个 JSON 源 中 有 895 条 记录 ， 示 例 19-1 只 列 出 了 4 条。 可 以 看 出 ， 整 个 数 
据 集 是 一 个 JSON 对 象 ， 里 面 有 一 个 键 ， 名 为 "Schedule"; 这 个 键 对 应 的 
值 也 是 一 个 映像 ， 有 4 个 键 : 

"conferences"、"events"、"speakers" 和 "venues"。 这 4 个 键 对 
应 的 值 都 是 一 个 记录 列表 。 在 示例 19-1 中 ， 各 个 列表 中 只 有 一 条 记录 。 然 
而 ， 在 完整 的 数据 集中 ， 列 表 中 有 成 日 上 于 条 记录 “。 不 

mw, "conferences" 键 对 应 的 列表 中 只 有 一 条 记录 ， 如 上 述 示 例 所 示 。 这 
4 个 列表 中 的 每 个 元 素 都 有 一 个 名 为 "serial7 的 字段 ， 这 是 元 素 在 各 个 列 
表 中 的 唯一 标识 符 。 


我 编写 的 第 一 个 脚本 只 用 于 下 载 那 个 OSCON 数据 源 。 为 了 避免 浪费 流量 ， 
我 会 先 检查 本 地 有 没有 副本 。 这 么 做 是 合理 的 ， 因 为 OSCON 2014 大 会 已 经 
结束 ， 数 据 源 不 会 再 更 新 。 

示例 19-2 没 用 到 元 编程 ， 几 乎 所 有 代码 的 作用 可 以 用 这 一 个 表达 式 概 括 : 
json.1load(fp )。 不 过 ， 这 样 足以 处 理 那 个 数据 集 了 。osconfeed ,1oad 
函数 会 在 后 面 几 个 示例 中 用 到 。 


示例 19-2 osconfeed.py: 下 载 osconfeed.json (doctest 在 示例 19-3 F) 


from urllib.request import urlopen 
import warnings 

import os 

import json 


URL = 'http://www.oreilly.com/pub/sc/osconfeed' 
JSON = 'data/osconfeed.json' 


def load(): 


if not os.path.exists(JSON): 
msg = ‘downloading {} to {}'.format(URL, JSON) 
warnings.warn(msg) @ 
with urlopen(URL) as remote, open(JSON, 'wb') as local: © 
local.write(remote.read()) 


with open(JSON) as fp: 
return json.load(fp) © 


@ 如 采 和 需要 下 载 ， 束 发 出 提醒 。 


@ E with 语句 中 使 用 两 个 上 下 文 管理 器 (从 Python 2.7 和 Python 3.1 起 允 
许 这 么 做 ) ， 分 别 用 于 读 取 和 保存 远程 文件 。 


上 日 json.1oad 函数 解析 ISON 文件 ， 返 回 Python 原生 对 象 。 在 这 个 数据 源 
中 有 这 几 种 数据 类 型 : dict>`list`str Minte 


19-2 中 的 代码 ， 我 们 可 以 审查 数据 源 中 的 任何 字段 ， 如 示例 19-3 
ZR œ 


示例 19-3 osconfeed.py: 示例 19-2 的 doctest 


>>> feed = load() @ 
>>> sorted(feed['Schedule'].keys()) @ 
['conferences', 'events', 'speakers', 'venues' ] 


>>> for key, value in sorted(feed[ 'Schedule'].items()): 
print('{:3} {}'.format(len(value), key)) © 


1 conferences 
494 events 
357 speakers 
53 venues 
>>> feed['Schedule']['speakers'][-1]['name'] @ 
"Carina C. Zona' 
>>> feed['Schedule']['speakers'][-1]['serial'] © 
141590 
>>> feed['Schedule']['events'][40]['name' ] 
"There *Will* Be Bugs' 
>>> feed['Schedule']['events'][40]['speakers'] © 
[3471, 5199] 


O feed 的 值 是 一 个 字典 ， 里 面 众 套 着 字典 和 列表 ， 存 储 着 字符 串 和 整数 。 
@ FH "Schedule" 键 中 的 4 个 记录 集合 。 

© 显示 各 个 集合 中 的 记录 数量 。 

O 深入 舱 套 的 字典 和 列表 ， 获 取 最 后 一 个 演讲 者 的 名 字 。 

O 获取 那 位 演讲 者 的 编号 。 

O 每 个 事件 都 有 一 个 'speakers' 字段 ， 列 出 0 个 或 多 个 演讲 者 的 编号 。 
19.1.1 使 用 动态 属性 访问 JSON 类 数据 

示例 19-2 十 分 简单 ， 不 过 ,feed['Schedule']['events'][40] 
['name'] 这 种 句法 很 见长 。 在 JavaScript 中 ， 可 以 使 用 
feed.Schedule.events[40].name 获取 那个 值 。 在 Python 中 ， 可 以 实 
现 一 个 近似 字典 的 类 (网 上 有 大 量 实现 ) 4， 达 到 同样 的 效果 。 我 自己 实现 
了 FrozenJSON 类 ， 比 大 多 数 实 现 都 简单 ， 因 为 只 支持 读 取 ， 即 只 能 访问 
数据 。 不 过 ， 这 个 类 能 递归 ， 自 动 处 理 藤 套 的 映射 和 列表 © 


4 最 常 提 到 的 一 个 实现 是 AttrDict， 还 有 一 个 实现 能 快速 创建 庶 套 的 映射 一 addict ° 


示例 19-4 演示 FrozenJSON 类 的 用 法 ， 源 代码 在 示例 19-5 ° 


示例 19-4 “示例 19-5 定义 的 FrozenJSON 类 能 读 取 属性 ， 如 name, 
还 能 调用 方法 ， 如 ,keys() 和 .items() 


>>> from osconfeed import load 

>>> raw_feed = load() 

>>> feed = FrozenJSON(raw_feed) @ 

>>> len(feed.Schedule.speakers) @ 

357 

>>> sorted(feed.Schedule.keys()) © 
['conferences', 'events', 'speakers', 'venues' ] 


>>> for key, value in sorted(feed.Schedule.items()): 


print('{:3} {}'.format(len(value), key)) 


1 conferences 
494 events 
357 speakers 
53 venues 
>>> feed.Schedule.speakers[-1].name © 
"Carina C. Zona' 
>>> talk = feed.Schedule.events[40] 
>>> type(talk) © 
<class 'exploreO.FrozenJSON '> 
>>> talk.name 
"There *Will* Be Bugs' 
>>> talk.speakers @ 
[3471, 5199] 
>>> talk.flavor © 
Traceback (most recent call last): 


KeyError: 'flavor' 


(4) 


O 传 入 和 岗 套 的 字典 和 列表 组 成 的 raw_feed， 创 建 一 个 FrozenJSON 实 


例 。 


@ FrozenJSON 实例 能 使 用 属性 表示 法 遍历 租 套 的 字典 ， 这 里 ， 我 们 获取 


演讲 者 列表 的 元 素数 量 。 


日 也 可 以 使 用 底层 字典 的 方法 ， 例 如 .keys( )， 获 取 记 录 集 合 的 名 称 。 
O 使 用 ijtems( ) 方法 获取 各 个 记录 集合 及 其 内 容 ， 然 后 显示 各 个 记录 集合 


中 的 元 素数 量 。 


日 列表 ， 例 如 feed,.Schedule.speakers， 仍 是 列表 ; 但 是 ， 如 果 里 面 


的 元 素 是 映射 ， 会 转换 成 FrozenJSON 对 象 。 


@ events 列表 中 的 40 号 元 素 是 一 个 JSON 对 象 ， 现 在 则 变 成 一 个 


FrozenJSON 实例 。 


@ 事件 记录 中 有 一 个 speakers 列表 ， 列 出 演讲 者 的 编号 。 


O 读 取 不 存在 的 属性 会 抛 出 KeyError Fit, MA OWA 
AttributeError 异常 。 


FrozenJSON 类 的 关键 是 _getattr__ 方法。 我们 在 10.5 TH Vector 
示例 中 用 过 这 个 方法 ， 那 时 用 于 通过 字母 获取 Vector 对 象 的 分 量 (例如 
V.X、V.y、VvV.Zz) 。 我 们 要 记 住 重要 的 一 点 ， 仅 当 无 法 使 用 常规 的 方式 获 
取 属 性 〈 即 在 实例 、 类 或 超 类 中 找 不 到 指定 的 属性 ) ， 解 释 器 才 会 调用 特殊 
的 getattr_ 方法。 


示例 19-4 的 最 后 一 行 揭 露 了 这 个 实现 的 一 个 小 问题 : HE, AN 
在 的 属性 应 该 抛 出 AttributeError 异常 。 其 实 ， 一 开始 我 对 这 个 异常 做 
了 处 理 , 但 是 __getattr__ 方法 的 代码 量 增加 了 一 倍 ， 而 且 偏 离 了 我 最 想 
展示 的 重要 逻辑 ， 因 此 为 了 教学 ， 后 来 我 把 那 部 分 代码 去 掉 了 。 


如 示例 19-5 所 示 ，FrozenJSON 类 只 有 两 个 方法 (__init__ 和 
__getattr__) 和 一 个 实例 属性 _data。 因 此 ， 党 试 获 取 其 他 属性 会 触 
发 解释 器 调用 __getattr__ 方法 。 这 个 方法 首先 查看 self. data 字典 
有 没有 指定 名 称 的 属性 (ARE) ， 这 样 FrozenJSON 实例 便 可 以 处 理 字 
典 的 所 有 方法 ， 例 如 把 items 方法 委托 给 self. data.items() 方 

法 。 如 果 self. data 没有 指定 名 称 的 属性 ， 那 么 getattr_ ”方法 以 
那个 名 称 为 键 ， 从 self. data 中 获取 一 个 元 素 ， 传 给 
FrozenJSON.build 方法 。 这 样 就 能 深入 JSON AGERE, EA 
方法 build 把 每 一 层 舱 套 转 换 成 一 个 FrozenJSON 实例 。 


示例 19-5 explore0.py: 把 一 个 JSON 数据 集 转换 成 一 个 般 套 着 
FrozenJSON 对 象 、 列 表 和 简单 类 型 的 FrozenJSON 对 象 


from collections import abc 


class FrozenJSON: 
"0"" 一 个 只 读 接口 ， 使 用 属性 表示 法 访问 JSON 类 对 象 


def _init_ (self, mapping): 
self._ data = dict(mapping) @ 


def __getattr__(self, name): © 
if hasattr(self._data, name): 
return getattr(self.__data, name) © 
else: 
return FrozenJSON.build(self.__data[name]) @ 


@classmethod 


def build(cls, obj): © 
if isinstance(obj, abc.Mapping): © 
return cls(obj) 
elif isinstance(obj, abc.MutableSequence): @ 
return [cls.build(item) for item in obj] 
else: © 
return obj 


@ 使 用 mapping 参数 构建 一 个 字典 。 这 人 么 做 有 两 个 目的 : (1) 确保 传 入 的 是 
字典 (或 者 是 能 转换 成 字典 的 对 象 ) ; (2) 安全 起 见 ， 创 建 一 个 副本 。 


@ 仅 当 没有 指定 名 称 (name) 的 属性 时 才 调用 _getattr_ 方法 。 


© 如 果 name 是 实例 属性 __data 的 属性 ， 返 回 那 个 属性 。 调 用 keys 等 方 
法 就 是 通过 这 种 方式 处 理 的 。 


@ Aull, 从 self., data 中 获取 name 键 对 应 的 元 素 ， 返 回调 用 
FrozenJSON.build() 方法 得 到 的 结果 。” 


5 这 一 行 中 的 self. _data[name] 表达 式 可 能 抛 出 KeyError 异常 。 我 们 应 该 处 理 这 个 异常 ， 擅 


出 AttributeError 异常 ， 因 为 这 才 是 getattr__ 方法 应 该 抛 出 的 异常 种 类 。 建 议 勤奋 的 读 
者 实现 错误 处 理 代码 ， 当 作 一 个 练习 。 


O 这 是 一 个 备 选 构造 方法 ，@classmethod 装饰 器 经 常 这 么 用 。 
O WER obj 是 映射 ， 那 就 构建 一 个 FrozenJSON WR ° 


@ 如 果 是 MutableSequence 对 象 ， 必 然 是 列表 , 因此 ， 我 们 把 obj 中 
的 每 个 元 素 递归 地 传 给 ,build( ) 方法 ， 构 建 一 个 列表 。 


5 数据 源 是 ISON 格式 ， 而 在 JSON 中 ， 只 有 字典 和 列表 是 集合 类 型 。 


O 如 果 既 不 是 字典 也 不 是 列表 ， 那 么 原封 不 动 地 返回 元 素 。 

注意 ， 我 们 没有 缓存 或 转换 原始 数据 源 。 在 欠 代 数据 源 的 过 程 中 ， 藤 套 的 数 
据 结构 不 断 被 转换 成 FrozenJSON 对 象 。 这 么 做 没 问 题 ， 因 为 数据 集 不 
大 ， 而 且 这 个 脚本 只 用 于 访问 或 转换 数据 。 


从 随机 源 中 生成 或 仿效 动态 属性 名 的 脚本 都 必须 处 理 一 个 问题 ， 原始 数据 中 
的 键 可 能 不 适合 作为 属性 名 。 下 一 节 处 理 这 个 问题 。 


19.1.2 ”处 理 无 效 属性 名 


FrozenJSON 类 有 个 缺陷 : 没有 对 名 称 为 Python 关键 字 的 属性 做 特殊 处 
理 。 比 如 说 像 下 面 这 样 构建 一 个 对 象 


>>> grad = FrozenJSON({'name': 'Jim Bo', 'class': 1982}) 


此 时 无 法 读 取 grad.class 的 值 ， 因 为 在 Python 中 class 是 保留 字 


>>> grad.class 
File "<stdin>", line 1 


grad.class 
A 


SyntaxError: invalid syntax 


当然 ， 可 以 这 么 做 : 


>>> getattr(grad, 'class') 
1982 


但 是 ，FrozenJSON 类 的 目的 是 为 了 便于 访问 数据 ， 因 此 更 好 的 方法 是 检查 
传 给 FrozenJSON. init _ 方法 的 映射 中 是 否 有 键 的 名 称 为 关键 字 ， 如 
果 有 ， 那 么 在 键 名 后 加 上 _， 然 后 通过 下 壕 方式 读 取 : 


>>> grad.class_ 
1982 


为 此 ， 我 们 可 以 把 示例 19-5 中 只 有 一 行 代码 的 init_ 方法 改 成 示例 19- 
6 中 的 版 本 。 


示例 19-6 explorel.py: 在 名 称 为 Python 关键 字 的 属性 后 面 加 上 _ 


def _ init__(self, mapping): 
self.__data = {} 
for key, value in mapping.items(): 


if keyword. iskeyword(key): (1) 
key += ' 
self. _ data[key] = = value 


@ keyword.iskeyword(...) ee 数 ; 为 了 使 用 它 ， 必 须 
导入 keyword 模块 ; 这 个 代码 及 段 没 有 列 出 导入 语句 。 


如 果 ISON 对 象 中 的 键 不 是 有 效 的 Python 标识 符 ， 也 会 遇 到 类 似 的 问题 : 


>>> X = FrozenJSON({'2be':'or not'}) 
>>> x.2be 
File "<stdin>", line 1 
x.2be 
A 


SyntaxError: invalid syntax 


这 种 有 问题 的 键 在 Python 3 中 易于 检测 ， 因 为 str 类 提供 的 
s.isidentifier() 方法 能 根据 语言 的 语法 判断 s 是 否 为 有 效 的 Python 标 
识 符 。 但 是 ， 把 无 效 的 标识 符 变 成 有 效 的 属性 名 却 不 容易 。 对 此 ， 有 两 个 简 
单 的 解决 方法 ， 一 个 是 抛 出 异常 ， 男 一 个 是 把 无 效 的 键 换 成 通用 名 称 ， 例 如 
attr_0、attr_1， 等 等 。 为 了 人 简单 起 见 ， 我 将 忽略 这 个 问题 。 


对 动态 属性 的 名 称 做 了 一 些 处 理 之 后 ， 我 们 要 分 析 FrozenJSON 类 的 另 一 
个 重要 功能 一 一 类 方法 build 的 逻辑 。 这 个 方法 把 谍 套 结构 转换 成 
FrozenJSON 实例 或 FrozenJSON 实例 列表 ， 因 此 getattr_ ”方法 使 
用 这 个 方法 访问 属性 时 ， 能 为 不 同 的 值 返回 不 同类 型 的 对 象 。 


除了 在 类 方法 中 实现 这 样 的 逻辑 之 外 ， 还 可 以 在 特殊 的 __new__ 方法 中 实 
现 ， 如 下 一 节 所 述 。 
19.1.3 使 用 new _ 方法 以 灵活 的 方式 创建 对 象 


我 们 通常 把 __init _ 称 为 构造 方法 ， 这 是 从 其 他 语言 借鉴 过 来 的 术语 。 其 
实 ， 用 于 构建 实例 的 是 特殊 方法 new__: 这 是 个 类 方法 (使 用 特殊 方式 
处 理 ， 因 此 不 必 使 用 @classmethod 装饰 器 ) ， 必 须 返 回 一 个 实例 。 返 回 


法 其 实 是 “初始 化 方法 "。 真 正 的 构造 方法 是 __new__。 我 们 几乎 不 需要 自 
己 编写 new 方法 ， 因 为 从 object 类 继承 的 实现 已 经 足够 了 。 
刚才 说 明 的 过 程 ， 即 从 new Fea init 方法 ， 是 最 常见 的 ,但 
不 是 唯一 的 。 new__ 方法 也 可 以 返回 其 他 类 的 实例 ， 此 时 ， 解 释 器 不 会 
调用 _ init 方法 。 

也 就 是 说 ，Python 构建 对 象 的 过 程 可 以 使 用 下 述 伪 代 码 概括 : 


# 构建 对 象 的 伪 代 码 


def object_maker(the_class, some_arg): 


new_object = the_class.__new__(some_arg) 

if isinstance(new_object, the_class): 
the_class.__init__(new_object, some_arg) 

return new_object 


下 述 两 个 语句 的 作用 基本 等 效 
Foo( bar ') 
object_maker(Foo, ‘'bar') 


示例 19-7 是 FrozenJSON 类 的 另 一 个 版 本 ， 把 之 前 在 类 方法 build 中 的 
逻辑 移 到 了 new _ 方法 中 。 


示例 19-7 explore2.py: 使 用 __new 


方法 取代 build 方法 ， 构 建 可 
能 是 也 可 能 不 是 FrozenJSON 实例 的 新 对 象 


from collections import abc 


class FrozenJSON: 
"0"" 一 个 只 读 接口 ， 使 用 属性 表示 法 访问 JSON 类 对 象 


def _new_ (cls, arg): @ 
if isinstance(arg, abc.Mapping): 
return super().__new_(cls) © 
elif isinstance(arg, abc.MutableSequence): © 
return [cls(item) for item in arg] 
else: 
return arg 


def _ init__(self, mapping): 
self.__data = {} 
for key, value in mapping.items(): 
if iskeyword(key): 
ke += Vee 
self.__data[key] = value 


def _ getattr_ (self, name): 
if hasattr(self.__data, name): 
return getattr(self._data, name) 
else: 
return FrozenJSON(self.__data[name]) @ 


@ new _ 十 类 方法 ， 第 一 个 参数 是 类 本 身 ， 余 下 的 参数 与 init_ 方 
法 一 样 ， 只 不 过 没有 self 。 


@ 默认 的 行为 是 委托 给 超 类 的 __new__ 方法 。 这 里 调用 的 是 object 基 类 
Ho new 方法 ， 把 唯一 的 参数 设 为 FrozenJSON。 


上 日 _new_ ”方法 中 余下 的 代码 与 原先 的 build 方法 完全 一 样 。 


@ 之 前 ， 这 里 调用 的 是 FrozenJSON.build 方法 ， 现 在 只 需 调 用 
FrozenJSON 构造 方法 。 


new ”方法 的 第 一 个 参数 是 类 ， 因 为 创建 的 对 象 通常 是 那个 类 的 实例 。 
所 以 , 在 FrozenJSON. new _ 方法 中 ，super(). new_ (cls) 表 
达 式 会 调用 object.__new__(FrozenJSON), 而 object 类 构建 的 实例 
其 实 是 FrozenJSON 实例 ， 即 那个 实例 的 __class__ 属性 存储 的 是 
FrozenJSON 类 的 引用 。 不 过 ， 真 正 的 构建 操作 由 解释 器 调用 C 语言 实现 
的 object. new_ _ 方法 执行 。 


OSCON 的 JSON 数据 源 有 一 个 明显 的 缺点 : 索引 为 40 的 事件 ， 即 名 为 
'There *Will* Be Bugs' 的 那个 有 两 位 演讲 者 ，3471 和 5199， 但 
却 不 容易 找到 他 们 ， 因 为 提供 的 是 编号 ， 而 Schedule.speakers 列表 没 
有 使 用 编号 建立 索引 。 此 外 ， 每 条 事件 记录 中 都 有 venue_serial +E, 
存储 的 值 也 是 编号 ， 但 是 如 果 想 找到 对 应 的 记录 ， 那 就 要 线性 搜索 
Schedule.venues 列表 。 接 下 来 的 任务 是 ， 调 整数 据 结 构 ， 以 便 上 自动 获取 
所 链接 的 记录 。 


19.1.4 ”使 用 shelve 模 块 调整 OSCON 数 据 源 的 结构 

标准 库 中 有 个 shelve (架子 ) 模块 ， 这 名 字 听 起 来 怪 怪 的 ， 可 是 如 果 知 道 
pickle (泡菜 ) 是 Python 对 象 序列 化 格式 的 名 字 ， 还 是 在 那个 格式 与 对 象 
之 间 相 互 转换 的 某 个 模块 的 名 字 ， 就 会 觉得 以 shelve 命名 是 合理 的 。 泡 菜 
坛子 摆 放 在 架子 上 ， 因 此 shelve 模块 提供 了 pickle 存储 方式 。 


shelve.open 高 阶 函 数 返回 一 个 shelve.Shelf 实例 ， 这 是 简单 的 键 值 
对 象 数据 库 ， 背 后 由 dbm 模块 支持 ， 具 有 下 壕 特点 。 


shelve.Shelf 是 abc .MutableMapping 的 子 类 ， 因 此 提供 了 处 理 
映射 类 型 的 重要 方法 。 


此 外 ，shelve.Shelf 类 还 提供 了 几 个 管理 IO 的 方法 ， 如 sync 和 
close; 它 也 是 一 个 上 下 文 管理 器 。 


。 只 要 把 新 值 典 了 予 键 ， 就 会 保存 键 和 值 。 
键 必须 是 字符 串 。 


。 值 必须 是 pickle 模块 能 处 理 的 对 象 。 


m 


shelve (https://docs.python.org/3/library/shelve.html) 、dbm 
(https://docs.python.org/3/library/dbm.html) 和 pickle 模块 
(https://docs.python.org/3/library/pickle.html) 的 详细 用 法 和 注意 事项 参见 文 

档 。 现 在 值得 天 注 的 是 ，shelve 模块 为 识别 OSCON 的 日 程 数据 提供 了 一 

种 简单 有 效 的 方式 。 我 们 将 从 JSON 文件 中 读 取 所 有 记录 ， 将 其 存在 一 个 

shelve.Shelf 对 象 中 ， 键 由 记录 类 型 和 编号 组 成 ( 例 

如 ，'event.33950' 或 'speaker.3471') ， 而 值 是 我 们 即将 定义 的 

Record 类 的 实例 。 


实例 19-8 是 schedule1.py 脚本 的 doctest， 使 用 shelve 模块 处 理 数 据 源 。 知 
想 以 交互 式 方式 测试 ， 要 执行 python -i schedule. py 命令 运行 脚 
本 ， 启 动 加 载 了 schedulel 模块 的 控制 台 。 主 要 工作 由 load_db HAZ 
成 : 调用 osconfeed.1oad 方法 (在 示例 19-2 中 定义 ) WEL ISON 数据 ， 
把 通过 db 传 入 的 Shelf 对 象 中 的 各 条 记录 存储 为 一 个 个 Record 实例。 这 
样 处 理 之 后 ， 获 取 演 讲 痢 的 记录 就 容易 了， 例如 speaker = 
db['speaker.3471']° 


示例 19-8 ”测试 schedulel.py 脚本 ( 见 示例 19-9) 提供 的 功能 


>>> import shelve 
>>> db = shelve.open(DB_NAME) @ 
>>> if CONFERENCE not in db: @ 


load_db(db) © 


>>> speaker = db['speaker.3471'] @ 

>>> type(speaker) © 

<class 'schedule1.Record'> 

>>> speaker.name, speaker.twitter © 
('Anna Martelli Ravenscroft', 'annaraven' ) 
>>> db.close() @ 


@ shelve.open 函数 打开 现 有 的 数据 库 文 件 ， 或 者 新 建 一 个 。 


O 判断 数据 库 是 否 填充 的 简便 方法 是 ， 检 查 某 个 已 知 的 键 是 否 存 在 ;这 里 检 
查 的 键 是 conference.115， 即 conference 记录 (只 有 一 个 ) 的 键 。7 


“也 可 以 使 用 len(db) 判断 ， 不 过 ， 如 果 是 大 型 dom 数据 库 ， 那 就 很 耗费 时 间 。 


© 如 果 数 据 库 是 空 的 ， 那 就 调用 load_db(db), ， 加 载 数据 。 


O 获取 一 条 speaker 记录 。 


O Lentil 19-9 中 定义 的 Record 类 的 实例 。 


O 各 个 Record 实例 都 有 一 系列 上 自 定 义 的 属性 ， 对 应 于 底层 ISON 记录 里 的 
字段 。 


@ 一 定 要 记得 关闭 shelve.Shelf 对 象 。 如 果 可 以 ， 使 用 with 块 确保 
Shelf 对 象 会 关闭 。8 


8doctest 有 个 突出 的 弱点 : 无 法 正确 地 设置 资源 并 保证 将 其 销毁 。 我 使 用 py. test 为 schedulel.py 


脚本 写 了 很 多 测试 ， 在 示例 A-12 


schedulel.py 脚本 的 代码 在 示例 19-9 中 。 


示例 19-9 schedulel.py: 访问 保存 在 shelve. Shelf 对 象 里 的 
OSCON 日 程 数据 


import warnings 
import osconfeed @ 


DB_NAME = 'data/schedulei_db' 
CONFERENCE = 'conference.115' 


class Record: 
def _ init__(self, **kwargs): 
self.__dict__.update(kwargs) @ 


def load_db(db): 
raw_data = osconfeed.load() ® 
warnings.warn('loading ' + DB_NAME) 
for collection, rec_list in raw_data['Schedule'].items(): ©@ 
record_type = collection[:-1] © 
for record in rec_list: 
key = '{}.{}'.format(record_type, record['serial']) © 
record['serial'] = key © 
db[key] = Record(**record) © 


@ 加载 示例 19-2 中 的 osconfeed.py 模块 。 


me sa 关键 字 参 数 传 入 的 属性 构建 实例 的 利用 简便 方式 (详情 参见 下 


© 如 果 本 地 没有 副本 ， 从 网 上 下 载 ISON 数据 源 。 


ORES (例如 'conferences'、'events'， 等 等 ) 。 


© record_type 的 值 是 去 掉 尾 部 's' 后 的 集合 名 (IE 'events ' Bak 
'event') œ 


@ 使 用 record_type 和 'serial' 字段 构成 Key 。 

@ 把 ‘serial! 字段 的 值 设 为 完整 的 键 。 

© 构建 Record 实例 ， 存 储 在 数据 库 中 的 key 键 名 下 。 

Record. _init__ 方法 展示 了 一 个 流行 的 Python 技巧 。 我 们 知道 ， 对 象 
的 __dict__ 属性 中 存储 着 对 象 的 属性 一 一 前 提 是 类 中 没有 声明 

_ slots _ 属性， 如 9.8 节 所 述 。 因 此 ， 更 新 实例 的 __dict __ 属性， 把 
值 设 为 一 个 映射 ， 能 快速 地 在 那个 实例 中 创建 一 堆 属 性 。3 


3 顺便 说 一 下 ，2001 年 Alex Martelli 在 “The simple but handy‘collector of a bunch of named stuff'class” 诀 


穷 中 分 享 这 个 技巧 时 使 用 的 类 名 是 Bunch 。 


一 


` 我 不 会 重 述 19.1.2 TWH, MRA, CREA, 
Record 类 可 能 要 处 理 不 能 作为 属性 名 使 用 的 键 。 


示例 19-9 中 定义 的 Record 类 太 人 简单 了 ， 因 此 你 可 能 会 问 ， 为 什么 之 前 没 
用 ， 而 是 使 用 更 复杂 的 FrozenJSON 类 。 原 因 有 两 个 。 第 一 ， 

FrozenJSON 类 要 递归 转换 肯 套 的 映射 和 列表 ; 而 Record 类 不 需要 这 人 么 
做 ， 因 为 转换 好 的 数据 集中 没有 骸 套 的 映射 和 列表 ， 记 录 中 只 有 字符 串 、 整 
数 、 字 符 串 列表 和 整数 列表 。 第 二 ，FrozenJSON Bi IAM data 
属性 〈 值 是 字典 ， 用 于 调用 keys 等 方法 ) ， 而 现在 我 们 也 不 需要 这 么 做 
J o 


` Python 标准 库 中 至 少 有 两 个 与 Record 类 似 的 类 ， 其 实例 可 以 有 
任意 个 属性 ， 由 传 给 构造 方法 的 关键 字 参 数 构建 一 一 
multiprocessing.Namespace 类 [ 文档， 源码] 和 
argparse.Namespace 类 [ 文档， 源码 ]。 我 之 所 以 自己 实现 
Record， 是 为 了 说 明 一 个 重要 的 做 法 : 在 __init__ 方法 中 更 新 实例 
的 _dict 属性 。 


像 上 面 那样 调整 日 程 数据 集 之 后 ， 我 们 可 以 扩展 Record 类 ， 让 它 提供 一 个 
有 用 的 服务 : 自动 获取 event 记录 引用 的 venue 和 speaker 记录 。 这 与 


Django ORM 访问 models.ForeignKey 字段 时 所 做 的 事 类 似 : 得 到 的 不 

而 是 链接 的 模型 对 象 。 在 下 一 个 示例 中 ， 我 们 要 使 用 特性 来 实现 这 个 
Bes 

19.1.5 ”使 用 特性 获取 链接 的 记录 

下 一 个 版 本 的 目标 是 ， 对 于 从 Shelf 对 象 中 获取 的 event 记录 来 说 ， 读 取 

它 的 venue 或 speakers 属性 时 返回 的 不 是 编号 ， 而 是 完整 的 记录 对 象 。 

用 法 如 示例 19-10 中 的 交互 代码 片段 所 示 。 


示例 19-10 摘自 schedule2.py 脚本 的 doctest 


>>> DbRecord.set db(db) @ 

>>> event = DbRecord.fetch('event.33950') @ 

>>> event © 

<Event 'There *Will* Be Bugs'> 

>>> event.venue ©@ 

<DbRecord serial='venue.1449'> 

>>> event.venue.name © 

"Portland 251' 

>>> for spkr in event.speakers: © 
print('{@.serial}: {0.name}'.format(spkr) ) 


speaker.3471: Anna Martelli Ravenscroft 
speaker .5199: Alex Martelli 


@ DbRecord 类 扩展 Record 类， 添加 对 数据 库 的 文 持 : 为 了 操作 数据 库 ， 
必须 为 DbRecord 提供 一 个 数据 库 的 引用 。 


@ DbRecord. fetch 类 方法 能 获取 任何 类 型 的 记录 ° 
©}, event = Event 类 的 实例 ， 而 Event 类 扩展 DbRecord 类 。 


@ event. venue 返回 一 个 DbRecord 实例 。 


O 现在 ， 想 找 出 event ,venue 的 名 称 就 容易 了 。 这 种 目 动 取 值 是 这 个 示例 
的 目标 。 


O AW LIA event.speakers 列表 ， 获 取 表 示 各 位 演讲 者 的 DbRecord 
对 象 。 


19-1 绘 出 了 本 市 要 分 析 的 几 个 类 。 


Record 


__init__ 方法 与 schedulel.py 脚本 〈 见 示例 19-9) 中 的 一 样 ; 为 了 辅 
助 测 试 ， 增 加 了 eq_ 方法 。 


DbRecord 


Record 类 的 子 类 ,添加 了 __db 类 属性 ， 用 于 设置 和 获取 _ db 属性 
的 set_db 和 get_db 藤 仿 方法 ， 用 于 从 数据 库 中 获取 记录 的 Fetch 类 方 
法 ， 以 及 辅助 调试 和 测试 的 __repr__ 实例 方法 。 


Event 


DbRecord 类 的 了 于 类 ， 添 加 了 用 于 获取 所 链接 记录 的 Venue 和 
speakers 属性 ， 以 及 特殊 的 _、_repr_ ”方法 。 


DbRecord 
db O 


set db {staticmethod} < 
get_ db {staticmethod} 
fet 


etch {classmethod} 


repr 


| Event 
venue {property} 
— speakers {propert 
|_repr | 


__fepr__ 


图 19-1: 改进 的 Record 类 和 两 个 子 类 (DbRecord 和 Event) 的 UML 类 
图 


DbRecord.__db 类 属性 的 作用 是 存储 打开 的 shelve. Shelf 数据 库 引 
用 ， 以 便 在 需要 使 用 数据 库 的 DoRecord.fetch 方法 及 Event .venue 和 
Event . speakers 属性 中 使 用 。 我 把 db 设 为 私有 类 属性 ， 然 后 定义 了 
普通 的 读 值 方法 和 设 值 方法 ， 以 防 不 小 心 覆 盖 __db 属性 的 值 。 基 于 一 个 重 
要 的 原因 ， 我 没有 使 用 特性 去 管理 __db 属性 : 特性 是 用 于 管理 实例 属性 的 
KETE o 10 

10Stack Overflow 中 有 个 题 为 “Class-level read only properties in Python 的 问题 ， 为 类 中 的 只 读 aleve 


供 了 解决 方案 ， 其 中 包括 Alex Martelli 提供 的 一 个 方案 。 这 些 方案 要 用 到 元 类 ， 因 此 学 习 那些 方案 
之 前 可 能 要 先 读本 书 第 21 章 。 


本 节 的 代码 在 本 书 仓库 里 的 schedule2.py 模块 中 。 这 个 模块 有 100 多 行 ， 
此 我 会 分 成 几 部 分 分 析 。 


schedule2.py 脚本 的 前 几 个 语句 在 示例 19-11 中 。 
示例 19-11 schedule2.py: 导入 模块 ， 定 义 常 量 和 增强 的 Record 类 


import warnings 
import inspect @ 


import osconfeed 


DB_NAME = 'data/schedule2_db' @ 
CONFERENCE = 'conference.115' 


class Record: 
def _ init__(self, **kwargs): 
self.__dict__.update(kwargs) 


def _eq_(self, other): © 
if isinstance(other, Record): 
return self.__dict__ == other.__dict__ 
else: 
return NotImplemented 


@ inspect 模块 在 load_db Kr FEH (参见 示例 19-14) 。 


OANZEIRILI AAAS, MAREEA AAS ed a BH 2 
件 ; 这 里 不 用 示例 19-9 中 的 "schedule1_ db'， 而 是 使 用 
"Schedule2 db'。 


加 ed _ 方法 对 测试 有 重大 帮助 。 


Rs 


在 Python 2 中 ， 只 有 “新 式 ” 类 文 持 特性 。 在 Python 2 中 定义 新 式 类 的 方 
法 是 ， 直 接 或 间接 继承 object 类 。 示 例 19-11 中 的 Record 类 是 一 个 
继承 体系 的 基 类 ， 用 到 了 特性 ; 因此 ， 在 Python 2 中 声明 Record 类 
时 ， 开 头 要 这 么 写 : H 


class Record(object ) : 


# 余下 的 代码 


U Python 3 中 明确 指明 继承 object 类 没有 错 ， 但 是 多 余 ， 因 为 现在 所 有 类 都 是 新 式 的 。 此 例 说 
明 ， 与 过 去 告别 能 让 语言 更 简洁 。 如 果 要 在 Python 2 和 Python 3 中 运行 同一 段 代 码 ， 应 该 显 式 继承 


object 类 。 


接 下 来 ，schedule2.py 脚本 定义 了 两 个 类 一 一 一 个 自 定 义 的 异常 类 型 和 
DbRecord 类 ， 参 见 示例 19-12 ° 


示例 19-12 schedule2.py: MissingDatabaseError 类 和 DbRecord 
类 


class MissingDatabaseError(RuntimeError): 


RC (MA ERR ENE ©" @ 


Class DbRecord(Record): @ 


db = None © 


@staticmethod ©@ 
def set_db(db): 
DbRecord.__db = db © 


@staticmethod © 
def get_db(): 
return DbRecord.__db 


@classmethod @ 
def fetch(cls, ident): 
db = cls.get_db() 
try: 
return db[ident] © 
except TypeError: 
if db is None: © 
msg = "database not set; call '{}.set_db(my_db)'" 
raise MissingDatabaseError(msg.format(cls.__name_)) 
else: @ 
raise 


def __repr__(self): 
if hasattr(self, 'serial'): @® 
cls_name = self.__class__.__ name__ 
return '<{} serial={!r}>'.format(cls_name, self.serial) 
else: 
return super().__repr__() @ 


@ 日 定义 的 异常 通常 是 标志 类 ， 没 有 定义 体 。 写 一 个 文档 字符 串 ， 说 明 异 常 
的 用 途 ， 比 只 写 一 个 pass 语句 要 好 。 


@ DbRecord 类 扩展 Record 类 。 


© db 类 属性 存储 一 个 打开 的 shelve.Shelf 数据 库 引用 。 
O set_db 是 静态 方法 ， 以 此 强调 不 管 调用 多 少 次 ， 效 采 始 终 一 样 。 


© 即使 调用 Event.set_db(my_db), __db 属性 仍 在 DbRecord 类 中 设 
置 o 


O get_db 也 是 静态 方法 ， 因 为 不 管 怎样 调用 ， 返 回 值 始 终 是 
DbRecord. db 引用 的 对 象 。 


O fetch 是 类 方法 ， 因 此 在 子 类 中 易于 定制 它 的 行为 。 
© 从 数据 库 中 获取 ident 键 对 应 的 记录 。 


© 如 果 捕 获 到 TypeError 异常 ， 而 且 db 变量 的 值 是 None， 抛 出 自 定 义 
的 异常 ， 说 明 必 须 设置 数据 库 。 


© 否则 ， 重 新 抛 出 TypeError 异常 ， 因 为 我 们 不 知道 怎么 处 理 。 
O 如 果 记 录 有 serial 属性 ， 在 字符 串 表示 形式 中 使 用 。 

@ 否则 ， 调 用 继承 的 __repr。 方法 。 
现在 到 这 个 示例 的 重要 部 分 了 一 一 Event 类 ， 如 示例 19-13 所 示 。 


示例 19-13 schedule2.py: Event 类 


class Event(DbRecord): @ 


@property 

def venue(self): 
key = 'venue.{}'.format(self.venue_serial) 
return self.__class__.fetch(key) @ 


@property 
def speakers(self): 
if not hasattr(self, '_speaker_objs'): © 
spkr_serials = self.__dict__['speakers'] @ 
fetch = self._class__.fetch © 
self._speaker_objs = [fetch('speaker.{}'.format(key) ) 
for key in spkr_serials] © 
return self._speaker_objs @ 


def __repr__(self): 
if hasattr(self, 'name'): ® 


cls_name = self.__class__.__name__ 

return '<{} {!r}>'.format(cls_name, self.name) 
else: 

return super().__repr_() © 


@ Event 类 扩展 DbRecord 类 。 
@ 在 venue 特性 中 使 用 venue_serial 属性 构建 key， 然 后 传 给 继承 自 


DbRecord 类 的 fetch 类 方法 〈 详 情 参 见 下 文 ) 。 
© speakers 特性 检查 记录 是 否 有 _speaker_objs 属 性。 


O 如 果 没 有 ， 直 接 从 __dict__ 实例 属性 中 获取 'speakers' 属性 的 值 ， 
防止 无 限 递归 ， 因 为 这 个 特性 的 公开 名 称 也 是 speakers。 


O 获取 fetch 类 方法 的 引用 〈 稍 后 会 说 明 这 人 么 做 的 原因 ) 。 


O 使 用 fetch 获取 speaker 记录 列表 ， 然 后 赋值 给 
self._speaker_objs ° 


OKER RAHI © 
@ 如 果 记 录 有 name 属性 ， 在 字符 串 表示 形式 中 使 用 。 
© 否则 ， 调 用 继承 的 repr_ 方法 。 


在 示例 19-13 中 的 venue 特性 里 ， 最 后 一 行 返回 的 是 
self.__class__.fetch(key), 为 什么 不 直接 使 用 self.fetch(key) 
WE? 对 这 个 OSCON 数据 源 来 说 ， 可 以 使 用 后 者 ， 因 为 事件 记录 都 没有 
'fetch' 键 。 哪 怕 只 有 一 个 事件 记录 有 名 为 'fetch' 的 键 ， 那 么 在 那个 
Event 实例 中 ，self.fetch 获取 的 是 fetch 字段 的 值 ， 而 不 是 Event 
继承 自 DbRecord 的 fetch 类 方法 。 这 个 缺陷 不 明显 ， 很 容易 被 测试 名 
略 ; 在 生产 环境 中 ， 如 果 会 场 或 演讲 者 记录 链接 到 那个 事件 记录 ， 获 取 事 件 
记录 时 才 会 暴露 出 来 。 


Be 从 数据 中 创建 实例 属性 的 名 称 时 肯定 有 可 能 会 引入 缺陷 ， 因 为 类 
属性 (例如 方法 ) 可 能 被 遮盖 ， 或 者 由 于 意外 履 盖 现 有 的 实例 属性 而 丢 
失 数 据 。 这 个 问题 可 能 是 Python 字典 默认 不 能 像 JavaScript 对 象 那 样 访 
问 的 主要 原因 。 


如 采 Record 类 的 行为 更 像 映 射 ， 可 以 把 动态 的 __getattr_ “方法 换 成 动 
ASH ___getitem__ 方法， 这 样 束 不 会 出 现 由 于 覆盖 或 遮盖 而 引起 的 缺陷 
了 。 使 用 映射 实现 Record 类 或 许 更 符合 Python 风格 。 可 是 ， 如 果 我 采用 
那 种 方式 ， 束 发 据 不 了 动态 属性 编程 的 技巧 和 陷阱 了 。 


这 个 示例 最 后 的 代码 是 重 写 的 10ad_db 函数 ， 如 示例 19-14 ° 


示例 19-14 schedule2.py: load_db 函数 


def load_db(db): 

raw_data = osconfeed.load() 

warnings.warn('loading ' + DB_NAME) 

for collection, rec_list in raw_data['Schedule'].items(): 
record_type = collection[:-1] @ 
cls_name = record_type.capitalize() @ 
cls = globals().get(cls_name, DbRecord) ® 
if inspect.isclass(cls) and issubclass(cls, DbRecord): @ 


factory = cls © 
else: 


factory = DbRecord © 
for record in rec_list: @ 
key = '{}.{}'.format(record_type, record['serial']) 
record['serial'] = key 
db[key] = factory(**record) © 


@ Hal, = schedulel.py 脚本 ( 见 示例 19-9) 中 的 load_db 函数 一 样 。 


@ 把 record_type 变量 的 值 首 字母 变 成 大 写 (例如 ， 把 'event ' 变 成 
'Event') ， 获 取 可 能 的 类 名 。 


© 从 模块 的 全 局 作用 域 中 获取 那个 名 称 对 应 的 对 象 ， 如 果 找 不 到 对 象 ， 使 用 
DbRecord ° 


O 如 果 获 取 的 对 象 是 类 ， 而 且 是 DbRecord 的 子 类 ...... 


日 把 对 象 赋值 给 factory 变量 。 因 此 ，factory 的 值 可 能 是 
DbRecord 的 任何 一 个 子 类 ， 有 具体 的 类 取决 于 record_type 的 值 。 


@ 否则 ， 把 DbRecord 赋值 给 factory 变 


量 
@ 这 个 for 循环 创建 key， 然 后 保存 记录 ， 这 


o 


与 之 前 一 样 ， 不过. 


caine 存储 在 数据 库 中 的 对 象 由 factory WE, factory 可 能 是 
e 类 ， 也 可 能 是 根据 record_type 的 值 确 定 的 某 个 子 类 。 


注意 ， 只 | 
Speaker 5K Venue &, load_db 函数 构建 和 保存 记录 时 会 自动 使 用 这 两 
个 类 ， 而 不 会 使 用 默认 的 DbRecord 类 。 


本 章 目 前 所 举 的 示例 是 为 了 展示 如 何 使 用 基本 的 工具 ,如 _ getattr_ 方 
法 、hasattr 函数 、getattr NAY. @property 装饰 器 和 ”dict Æ 
性 ， 来 实现 动态 属性 。 


特性 经 常用 于 把 公开 的 属性 变 成 使 用 读 值 方法 和 设 值 方法 管理 的 属性 ， 且 在 
影响 客户 端 代码 的 前 提 下 实施 业务 规则 ， 如 下 一 节 所 述 。 


19.2 ”使 用 特性 验证 属性 


目前 ， 我 们 只 介绍 了 如 何 使 用 @property 装饰 器 实现 只 读 特 性 。 本 节 要 创 
建 一 个 可 读 写 的 特性 。 


19.2.1 LineItem 类 第 1 版 ， 表 示 订 单 中 商品 的 类 

假设 有 个 销售 散装 有 机 食物 的 电 商 应 用 ， 穷 户 可 以 按 重量 订购 坚果 、 王 有 果 或 
杂粮 。 在 这 个 系统 中 ， 每 个 订单 中 都 有 一 系列 商品 ， 而 每 个 商品 都 可 以 使 用 
示例 19-15 中 的 类 表示 。 


示例 19-15 bulkfood_v1: 最 简单 的 LineItem 类 


class LineItem: 


def _ init__(self, description, weight, price): 
self.description = description 
self.weight = weight 
self.price = price 


de 


sh 


subtotal(self): 
return self.weight * self.price 


这 个 类 很 精简 ， 不 过 或 许 太 简单 了 。 示 例 19-16 揭示 了 一 个 问题 。 
示例 19-16 重量 为 负 值 时 ， 金 额 小 计 为 负 值 


>>> raisins = LineItem('Golden raisins', 10, 6.95) 
>>> raisins.subtotal() 
69.5 


>>> raisins.weight = -20 # 无 效 输入 
>>> raisins.subtotal() # 无 效 输出 
-139.0 


I 但 是 没有 想象 中 的 那么 好 玩 。 下 面 是 亚马逊 早期 的 真 


我 们 发 现 顾客 买书 时 可 以 把 数量 设 为 负数 ! 然后 ， 我 们 把 金额 打 到 顾客 
ae (tesa) o 


的 信用 卡 等 待 他 们 把 书 寄 出 
—Jeff Bezos 
亚 马 进 创始 人 和 CEO 
“摘自 《华尔街 日 报 》 的 文章 , “Birth of a Salesman” (2011 年 10 月 15 H) ， 这 是 Jeff Bezos 的 原 


i 


这 个 问题 怎么 解决 呢 ? 我 们 可 以 修改 LineItem 类 的 接口 ， 使 用 读 值 方 法 和 
设 值 方 法 管理 weight 属性 。 这 是 Java 采用 的 方式 ， 这 里 也 完全 可 行 。 


但 是 ， 如 果 能 直接 设 定 商品 的 weight 属性 ， 显 得 更 自然 。 此 外 ， 系 统 可 能 


在 生产 环境 中 ， 而 其 他 部 分 已 经 直接 访问 item.weight 了 。 此 时 ， 符 合 
Python 风格 的 做 法 是 ， 把 数据 属性 换 成 特性 。 


19.2.2 LineItem 类 第 2 版 :， 能 验证 值 的 特性 

实现 特性 之 后 ， 我 们 可 以 使 用 读 值 方法 和 设 值 方法 ， 但 是 LineItem 类 的 接 
口 保持 不 变 ( 即 ， 设 置 LineItem 对 象 的 weight 属性 依然 写成 
raisins.weight = 12) 。 


示例 19-17 列 出 可 读 写 的 weight 特性 的 代码 。 


示例 19-17 bulkfood_v2.py: 定义 了 weight 特性 的 LineItem 类 


class LineItem: 


def _ init__(self, description, weight, price): 
self.description = description 
self.weight = weight @ 
self.price = price 


def subtotal(self): 


return self.weight * self.price 


@property @ 
def weight(self): © 
return self. weight @ 


@weight.setter © 
def weight(self, value): 
if value > 0: 
self. weight = value © 
else: 
raise ValueError('value must be > 0') © 


5 这 里 已 经 使 用 特性 的 设 值 方法 了 ， 确 保 所 创建 实例 的 weight 属性 不 能 为 
负 值 。 


@ @property 装饰 读 值 方法 。 
© 实现 特性 的 方法 ， 其 名 称 都 与 公开 属性 的 名 称 一 样 一 一 weight 。 
@ 真正 的 值 存储 在 私有 属性 ”weight 中 。 


O 被 痰 饰 的 读 值 方 法 有 个 .setter BE, ANB ear, Peri 
器 把 读 值 方法 和 设 值 方法 绑 定 在 一 起 。 


@ 如 果 值 大 于 零 ， 设 置 私有 属性 _ weight ° 
@ 否则 ， 抛 出 ValueError 异常 。 


注意 ， 现 在 不 能 创建 重量 为 无 效 值 的 LineItem 对 象 : 


>>> walnuts = LineItem('walnuts', 0, 10.00) 
Traceback (most recent call last): 


ValueError: value must be > 0 


现在 ， 我 们 禁止 用 户 为 weight JB tebetk i (Eek ° BPRS AH NABI 
商品 的 价格 ， 但 是 工作 人 员 可 能 犯错 ， 应 用 程序 也 可 能 有 缺陷 ， 从 而 导致 
LineItem 对 象 的 price 属性 为 负 值 。 为 了 防止 出 现 这 种 情况 ， 我 们 也 可 
以 把 price 属性 变 成 特性 ， 但 是 这 样 我 们 的 代码 中 就 存在 一 些 重复 。 


还 记得 第 14 章 引 述 Paul Graham 的 那 句 话 吗 ? 他 说 : “ 当 我 在 目 己 的 程序 中 
发 现 用 到 了 模式 ， 我 觉得 这 就 表明 某 个 地 方 出 错 了 。 ?去 除 重 复 的 方法 是 抽 


象 。 抽 象 特性 的 定义 有 两 种 方式 : 使 用 特性 工厂 KA, RAAR 。 
后 者 更 灵活 ， 第 20 半 会 全 面 讨论 。 其 实 ， 特 性 本 身 就 是 使 用 描述 符 类 实现 
的 。 不 过 ， 这 里 我 们 要 继续 探讨 特性 ， 实 现 一 个 特性 工厂 函数 。 


但 是 ， 在 实现 特性 工厂 函数 之 前 ， 我 们 要 深入 理解 特性 。 


19.3 ”特性 全 解析 


虽然 内 置 的 property 经 和 常用 作 装 饰 器 ， 但 它 其 实 是 一 个 类 。 在 Python 
中 ， 辑 数 和 类 通常 可 以 互 换 ， 因 为 二 者 都 是 可 调用 的 对 象 ， 而 且 没 有 实例 化 
WRAY new 运算 符 ， 所 以 调用 构造 方法 与 调用 工厂 函数 没有 区 别 。 此 外 ， 只 
要 能 返回 新 的 可 调用 对 象 ， 代 替 被 装饰 的 函数 ， 二 者 都 可 以 用 作 装 饰 器 。 


property 构造 方法 的 完整 签名 如 下 : 


m 


E 


property(fget=None, fset=None, fdel=None, doc=None) 


所 有 参数 都 是 可 选 的 ， 如 果 没 有 把 函数 传 给 某 个 参数 ， 那 么 得 到 的 特性 对 象 
BLAS POTENT AE DLAI ERE ° 


property 类 型 在 Python 2.2 中 引入 ,但 是 直到 Python 2.4 才 出 现 @ imas 
因此 有 那么 几 年 ， 者 想 定义 特性 ， 则 只 能 把 存 取 函 数 传 给 前 两 个 参 


不 使 用 装饰 器 定义 特性 的 <“ 经典” 句法 如 示例 19-18 所 示 。 


示例 19-18 bulkfood_v2b.py: 效果 与 示例 19-17 一 样 ， 只 不 过 没 使 用 装 
饰 器 


class LineItem: 


def _ init__(self, description, weight, price): 
self.description = description 
self.weight = weight 
self.price = price 


de 


> 


subtotal(self): 
return self.weight * self.price 


def get_weight(self): @ 
return self. weight 


def set_weight(self, value): @ 


if value > 0: 
self.__ weight = value 
else: 
raise ValueError('value must be > 0') 


weight = property(get_weight, set_weight) © 


构建 property 对 象 ， 然 后 赋值 给 公开 的 类 属性 。 

某 些 情况 下 ， 这 种 经 典 形式 比 装饰 器 句法 好 ; 稍 后 讨论 的 特性 工厂 函数 就 是 
一 例 。 但 是 ， 在 方法 众多 的 类 定义 体 中 使 用 装饰 器 的 话 ， 一 眼 就 能 看 出 哪些 
是 读 值 方法 ， 哪 些 是 设 值 方法 ， 而 不 用 按照 惯例 ， 在 方法 名 的 前 面 加 上 get 
All set 。 


类 中 的 特性 能 影响 实例 属性 的 寻找 方式 ， 而 一 开始 这 种 方式 可 能 会 让 人 觉得 
意外 。 下 一 节 会 详细 说 明 。 


19.3.1 特性 会 覆盖 实例 属性 
特性 都 是 类 属性 ， 但 是 特性 管理 的 其 实 是 实例 属性 的 存 取 。 
9.9 万 说 过 ， 如 果实 例 和 所 属 的 类 有 同名 数据 属性 ， 那 么 实例 属性 会 覆盖 
《或 称 遮盖 ) 类 属性 一 一 至 少 通过 那个 实例 读 取 属性 时 是 这 样 。 示 例 19-19 
阐明 了 这 一 点 。 
示例 19-19 ”实例 属性 遮盖 类 的 数据 属性 


>>> class Class: #0 
data = 'the class data attr' 
@property 
def prop(self): 
return 'the prop value' 


Sos obj = Class() 
>>> vars(obj) #@ 
{} 


>>> obj.data # © 

"the class data attr' 
>>> obj.data = 'bar' # @ 
>>> vars(obj) #® 
{'data': 'bar'} 


>>> obj.data # @ 
"bar' 


>>> Class.data # @ 
"the class data attr' 


@ EX Class 类 ， 这 个 类 有 两 个 类 属性 : data 数据 属性 和 prop 特性 
@ vars 函数 返回 obj 的 _dict _ 属 性， 表明 没有 实例 属性 

© 读 取 obj .data， 获 取 的 是 Class .data 的 值 
@ 为 obj.data 赋值 ， 创 建 一 个 实例 属性 

@ 审查 实例 ， 查 看 实例 属性 


© 现在 读 取 obj. da 获取 的 是 实例 属性 的 值 。 从 obj 实例 中 读 取 属性 
上 时， 实例 属性 data 会 遮盖 类 属性 data 。 


@ Class. data 属性 的 值 完好 无 损 。 


PH ae obj 实例 的 prop 特性 。 接 着 前 面 的 控制 台 会 话 ， 输 入 示例 
19-20 中 的 代码 。 


示例 19-20 ”实例 属性 不 会 遮盖 类 特性 (接续 示例 19-19) 


o 


>>> Class.prop # @ 

<property object at 0x1072b7408> 
>>> obj.prop #@ 

"the prop value' 

>>> obj.prop = 'foo' #® 
Traceback (most recent call last): 


AttributeError: can't set attribute 
>>> obj.__dict__['prop'] = 'foo' #@ 
>>> vars(obj) # © 

{ 'data': 'bar','prop': 'foo'} 


>>> obj.prop # @ 

"the prop value' 

>>> Class.prop = 'baz' #@ 
>>> obj.prop #@ 

'foo' 


@ 直接 从 中 读 取 prop 特性 ， 获 取 的 是 特性 对 象 本 喘 ， 不 会 运行 特 
性 的 读 值 方法 


@ 读 取 obj .prop 会 执行 特性 的 读 值 方法 。 
© Sie prop 实例 属性 ， 结 果 失 败 。 

O 但 是 可 以 直接 把 'prop' 存 入 obj. dict 。 

O 可 以 看 到 ，obj 现在 有 两 个 实例 属性 : data 和 prop。 


© 然而 ， 读 取 obj . prop 时 仍 会 运行 特性 的 读 值 方法 。 特 性 没 被 实例 属性 


@ i Class .prop 特性 ， 销 毁 特 性 对 象 。 


© HIE, obj .prop 获取 的 是 实例 属性 。Class .prop 不 是 特性 了 ， 因 此 
不 会 再 覆盖 Obj. prop 


最 后 再 举 一 个 例子 ， 为 Class 类 新 添 一 个 特性 ， 覆 盖 实 例 属 性 。 示 例 19-21 
REL fill 19-20 ° 


示例 19-21 ”新 添 的 类 特性 遮盖 现 有 的 实例 属性 (接续 示例 19-20) 


>>> obj.data # @ 

"bar' 

>>> Class.data #@ 

"the class data attr' 

>>> Class.data = property(lambda self: 'the "data" prop value') # ® 


>>> obj.data # @ 

"the "data" prop value' 
>>> del Class.data # © 
>>> obj.data # @ 

"bar' 


@ obj .data 获取 的 是 实例 属性 data ° 


@ Class.data 获取 的 是 类 属性 data。 

© 使 用 新 特性 覆盖 Class ,data。 

@ 现在 ，obj .data ł Class.data 特性 遮盖 了 。 

© 删除 特性 。 

@ 现在 恢复 原样 ，obj .data 获取 的 是 实例 属性 data。 


本 万 的 主要 观点 是 ，obj .attr 这 样 的 表达 式 不 会 从 obj 开始 寻找 attr, 

而 是 从 obj. class 开始， 而 且 ， 仅 当 类 中 没有 名 为 attr 的 特性 时 ， 

Python 才 会 在 obj 实例 中 寻找 。 这 条 规则 不 仅 适 用 于 特性 ， 还 适用 于 一 整 

类 描述 符 一 覆盖 型 描述 符 (overriding descriptor) 。 第 20 章 会 进一步 讨论 
FHT, ART IRA ATW, FPSO ee FF e 


现在 回 到 特性 。 各 种 Python 代码 单元 (BEER > HBS RATT IA) 都 可 以 有 文 
档 字 符 串 。 下 一 节 说 明 如 何 把 文档 依附 到 特性 上 。 


19.3.2 ”特性 的 文档 


控制 台中 的 help( ) 函数 或 IDE 等 工具 需要 显示 特性 的 文档 时 ， 会 从 特性 的 
”doc_ ”属性 中 提取 信息 。 


如 果 使 用 经 典 调用 名 法， 为 property 对 象 设置 文档 字符 串 的 方法 是 传 入 


doc 参数 : 


weight = property(get_weight, set_weight, doc='weight in kilograms' ) 


使 用 装饰 器 创建 property 对 象 时 ， 读 值 方法 (A @property 装饰 器 的 方 
TE) 的 文档 字符 串 作 为 一 个 整体 ， 变 成 特性 的 文档 。 图 19-2 显示 的 是 从 示例 
19-22 里 的 代码 中 生成 的 帮助 界面 。 


8.0.9. 3. Python 
lontra:metaprog luciano$ python3 -i doc_property.py 
>>> helpCFoo. bar) eoo 
|Help on property: 
e 3. Python 
ra:m ciano$ python3 -i doc_property.py 


eo 
The bar attribute |1lont etaprog lu 
>>> help(Foo.bar) 


| GDH 


iss Foo in module __main__: 
>>> help(Foo)f] 


BD | 


1 

1 

1 

l =] 

1 dictionary for instance variables (if defined) 
1 

1 akref__ 

1 list of weak references to the object Cif defined) 
1 

1 

1 


ee 


图 19-2: 在 Python 控制 台中 执行 help(Foo .bar) 和 help(Foo) 命令 时 
的 截图 ， 源 码 在 示例 19-22 中 


示例 19-22 ”特性 的 文档 


class Foo: 


@property 

def bar(self): 
'''The bar attribute''' 
return self. _dict__['bar'] 


@bar.setter 
def bar(self, value): 
self.__dict__['bar'] = value 


至 此 ， 我 们 介绍 了 特性 的 重要 知识 。 下 面 回 过 头 来 解决 表面 遇 到 的 问题 : 保 
护 LineItem 对 象 的 weight 和 price 属性 ， AIT RAAT SE 但 
是 ， 不 用 手动 实现 两 对 几乎 一 样 的 读 值 方法 和 设 值 方法 


19.4 ”定义 一 个 特性 工厂 函数 


我 们 将 定义 一 个 名 为 quantity WHEL) KZ, 取 这 个 名 字 是 因为 ， 在 这 
个 应 用 中 要 管理 的 属性 表示 不 能 为 负数 或 零 的 量 。 示 例 19-23 是 LineItem 
类 的 简洁 版 ， 用 到 了 quantity 特性 的 两 个 实例 : 一 个 用 于 管理 weight 
属性 ， 另 一 个 用 于 管理 price 属性 。 


示例 19-23 bulkfood_v2prop.py: 使 用 特性 工厂 函数 quantity 


class LineItem: 
weight = quantity('weight') @ 
price = quantity('price') @ 


def _ init__(self, description, weight, price): 
self.description = description 
self.weight = weight © 
self.price = price 


def subtotal(self): 
return self.weight * self.price ©@ 


@ 使 用 工厂 函数 把 第 一 个 目 定 义 的 特性 weight 定义 为 类 属性 
@ 第 二 次 调用 ， 构 建 另 一 个 目 定 义 的 特性 ，price。 

@ 这里， 特性 已 经 激活 ， 确 保 不 能 把 weight 设 为 负数 或 零 。 
@ 这 里 也 用 到 了 特性 ， 使 用 特性 获取 实例 中 存储 的 值 


o 


前 文 说 过 ， 特 性 是 类 属性 。 构 建 各 个 quantity 特性 对 象 时 ， 要 传 入 
LineItem 实例 属性 的 名 称 ， 让 特性 管理 。 可 惜 ， 这 一 行 要 两 次 输入 单词 
weight: 


weight = quantity('weight' ) 


这 里 很 难 避 免 重复 输入 ， 因 为 特性 根本 不 知道 要 绑 定 哪个 类 属性 名 。 记 住 ， 
赋值 语句 的 右边 先 计 算 ， 因 此 调用 quantity() 时 ，weight 类 属性 还 不 
存在 。 


LN 如 采 想 改进 quantity 特性 ， 避 免 用 户 重 复 输入 属性 名 ， 那 么 对 
元 编程 来 说 是 个 挑战 。 第 20 章 会 介绍 一 种 变通 方法 ， 真 正 的 解决 方法 
在 第 21 间 说 明 ， 因 为 要 么 得 使 用 类 装饰 器 ， 要 么 得 使 用 元 类 。 


示例 19-24 列 出 quantity 特性 工厂 画 数 的 实现 。33 


3 这 段 代码 改编 自 David Beazley = Brian K. Jones 的 《Python Cookbook (第 3 版 ， 中 文 版 》 一 书 ! 
的 “9.21 避免 出 现 重复 的 属性 方法 ”一 节 。 


示例 19-24 bulkfood_v2prop.py: quantity 特性 工厂 函数 


def quantity(storage_name): @ 


def qty_getter(instance): @ 
return instance.__dict__[storage_name] ® 


def qty_setter(instance, value): @ 
if value > 0: 
instance. _dict__[storage_name] = value © 
else: 
raise ValueError('value must be > 0') 


return property(qty_getter, qty_setter) © 


@ storage_name 参数 确定 各 个 特性 的 数据 存储 在 哪儿 ， 对 weight 特性 
来 说 ， 存 储 的 名 称 是 'weight'。 


@ qty_getter 函数 的 第 一 个 参数 可 以 命名 为 self， 但 是 这 么 做 很 奇怪 ， 
因为 qty_getter 函数 不 在 类 定义 体 中 ;instance 指 代 要 把 属性 存储 其 
中 的 LineItem 实例 。 


© gty_getter 引用 了 storage_name， 把 它 保存 在 这 个 函数 的 闭 包 里 ; 
值 直 接 从 instance. dict 中 获取 ， 为 的 是 跳 过 特性 ， 防 止 无 限 递 
YA e 


@ 定义 qty_setter 函数 ， 第 一 个 参数 也 是 instance 。 
© 值 直接 存 到 instance. dict __ 中， 这 也 是 为 了 跳 过 特性 。 
O 构建 一 个 自 定 义 的 特性 对 象 ， 然 后 将 其 返回 。 


示例 19-24 中 值得 仔细 分 析 的 代码 是 与 storage_name 变量 相关 的 部 分 

使 用 传统 方式 定义 特性 时 ， 用 于 存储 值 的 属性 名 硬 编码 在 读 值 方法 和 设 值 方 
法 中 。 但 是 ， 这 里 的 J qty_getter All qty_setter 函数 是 通用 的 ， 要 依靠 
storage_name 变量 判断 从 dict _ 中 获取 哪个 属性 ， 或 者 设置 哪个 属 
性 。 每 次 调用 quantity 工厂 函数 构建 属性 时 ， 都 要 把 storage_name 参 
数 设 为 独一无二 的 值 。 


在 工厂 函数 的 最 后 一 行 ， 我 们 使 用 property 对 象 包装 qty_getter 和 
qty_setter Ky ° 需要 运行 这 两 个 豆 数 时 它们 会 从 闭 包 中 读 取 
storage_name， 确 定 从 哪里 获取 属性 的 值 ， 或 者 在 哪里 存储 属性 的 值 。 


在 示例 19-25 中 ， 我 创建 并 审查 了 一 个 LineItem 示例 ， 说 明 存 储 值 的 是 哪 
个 属性 。 


示例 19-25 bulkfood_v2prop.py: quantity 特性 工厂 函数 


>>> nutmeg = LineItem('Moluccan nutmeg', 8, 13.95) 
>>> nutmeg.weight, nutmeg.price @ 
(8, 13.95) 


>>> sorted(vars(nutmeg).items()) @ 
[('description', 'Moluccan nutmeg'), ('price', 13.95), ('weight', 8)] 


@ 通过 特性 读 取 weight 和 price， 这 会 遮盖 同名 实例 属性 
@ 使 用 vars 函数 审查 nutmeg 实例 ， 查 看 真正 用 于 存储 值 的 实例 属性 。 


注意 ， 工 三 函 数 构 建 的 特性 利用 了 19.3.1 节 所 述 的 行为 : weight 特性 覆盖 
T weight 实例 属性 ， 因 此 对 self.weight 或 nutmeg,weight 的 每 个 
引用 都 由 特性 函数 处 理 ， 只 有 直接 存 取 dict__ 属性 才能 跳 过 特性 的 处 理 
逻辑 。 


示例 19-25 中 的 代码 有 点 难 理解 ， 不 过 够 简洁 ， 与 示例 19-17 中 使 用 装饰 器 
声明 读 值 方法 和 设 值 方法 的 代码 行 数 一 样 ， 但 是 那里 只 定义 了 weight 特 
性 。 示 例 19-23 中 定义 的 LineItem 类 没有 干扰 人 的 读 值 方法 和 设 值 方法 ， 
看 起 来 舒服 多 了 。 

在 真实 的 系统 中 ， 分 散在 多 个 类 中 的 多 个 字段 可 能 要 做 同样 的 验证 ， 此 时 最 
好 把 quantity 工厂 函数 放 在 实用 工具 模块 中 ， 以 便 重 复 人 使用。 最终 可 能 要 
重 构 那个 简单 的 工厂 函数 ， 改 成 更 易 扩 展 的 描述 符 类 ， 然 后 使 用 专门 的 子 类 
执行 不 同 的 验证 。 在 第 20 章 中 ， 我 们 会 这 么 做 。 


下 面 要 分 析 删 除 属性 的 问题 ， 以 此 结束 对 特性 的 讨论 。 


19.5 “处理 属性 删除 操作 


学 过 Python 教程 ， 我 们 知道 ， 对 象 的 属性 可 以 使 用 del 语句 删除 : 


del my_object.an_attribute 


其 实 ， 使 用 Python 编程 时 不 常 删 除 属性 ， 通 过 特性 删除 属性 更 少见 。 但 是 ， 
Python 文 持 这 么 做 ， 我 可 以 虚构 一 个 示例 ， 演 示 这 种 处 理 方 式 。 


定义 特性 时 ， 可 以 使 用 @my_propety .deleter 装饰 器 和 包装 一 个 方法 ， 负 
责 删除 特性 管理 的 属性 。 下 面 兑现 承诺 ， 虚 构 一 个 示例 ， 说 明 如 何 定义 特性 
删 值 方法 ， 如 示例 1926 所 示 。 


da blackknight.py: 灵感 来 和 目 电 影 《 巨 蟒 与 圣杯 》 中 的 墨 衣 骑 


class BlackKnight: 


def _init_ (self): 
self.members = ['an arm', 'another arm', 
‘a leg', ‘another leg'] 
self.phrases = ["'Tis but a scratch.", 
"It's just a flesh wound.", 
"I'm invincible!" 
"All right, we'll call it a draw."] 


@property 

def member(self): 
print('next member is:') 
return self.members[0] 


@member .deleter 


def member(self): 
text = 'BLACK KNIGHT (loses {})\n-- {}' 
print(text.format(self.members.pop(0), self.phrases.pop(0))) 


blackknight.py 脚本 的 doctest 在 示例 19-27 中 。 


人 19-27 blackknight.py: 示例 19-26 的 doctest 〈 黑 衣 骑 士 从 不 屈 
服 


>>> knight = BlackKnight() 

>>> knight ,member 

next member is: 

"an arm' 

>>> del knight .member 

BLACK KNIGHT (loses an arm) 

- 'Tis but a scratch. 

>>> del knight .member 

BLACK KNIGHT (loses another arm) 
- It's just a flesh wound. 

>>> del knight .member 

BLACK KNIGHT (loses a leg) 
- I'm invincible! 

>>> del knight .member 

BLACK KNIGHT (loses another leg) 
- All right, we'll call it a draw. 


在 不 使 用 装饰 器 的 经 典 调用 句法 中 ，fdel BRA Fix Saws © HN, 
在 BlackKnight 类 的 定义 体 中 可 以 像 下 面 这 样 创 建 member 特性 : 


member = property(member_getter, fdel=member_deleter ) 


如 果 不 使 用 特性 ， 还 可 以 实现 低层 特殊 的 delattr_ ”方法 处 理 删除 属性 
的 操作 ， 参 见 19.6.3 节 。 留 给 喜欢 拖延 的 读者 一 个 练习 : 虚构 一 个 类 ， 定 义 
”delattr ”方法 。 


特性 是 个 强大 的 功能 ， 不 过 有 时 更 适合 使 用 简单 的 或 底层 的 赫 代 方案 。 在 本 
章 的 最 后 一 站 中 ， 我 们 将 回顾 Python 为 动态 属性 编程 提供 的 部 分 核心 API ° 


19.6 ”处 理 属 性 的 重要 属性 和 函数 


本 章 及 本 书 前 面 的 章节 多 次 用 到 Python 为 处 理 动态 属性 而 提供 的 内 置 画 数 和 
特殊 的 方法 。 这 些 画 数 和 方法 的 文档 散布 在 官方 文档 中 ， 因 此 我 专门 写 了 一 
节 和 集中 介绍 它们 ° 


19.6.1 影响 属性 处 理 方式 的 特殊 属性 
后 面 儿 节 中 的 很 多 函数 和 特殊 方法 ， 其 行为 受 下 述 3 个 特殊 属性 的 影响 。 
Class_ 


对 象 所 属 类 的 引用 (EN obj.__class__ 5 type(obj) 的 作用 相 
同 ) ° Python 的 某 些 特殊 方法 ,例如 __getattr ， 只 在 对 象 的 类 中 寻 
找 ， 而 不 在 实例 中 寻找 。 


_ dict__ 
一 个 上 映射， 存储 对 象 或 类 的 可 写 属性 。 有 __dict__ 属性 的 对 象 ， 任 何 


时 候 都 能 随意 设置 新 属性 。 如 果 类 有 __slots _ 属性 ， 它 的 实例 可 能 没有 
_dict _ 属性 。 参 见 下 面 对 slots _ 属性 的 说 明 。 


Slots _ 


类 可 以 定义 这 个 这 属性 ， 限 制 实例 能 有 哪些 属性 。 slots 属性 的 
值 是 一 个 字符 串 组 成 的 元 组 ， 指 明 介 许 有 的 属性 。14 如 果 slots ”中 没 
有 ' dict '， 那 么 该 类 的 实例 没有 __dict__ 属 性， 实例 只 允许 有 指 
定名 称 的 属性 。 


14Alex Martelli 4H, __ slots _ 属 性 的 值 虽然 可 以 是 一 个 列表 ， 但 是 最 好 始终 使 用 元 组 ， 因 为 处 
理 完 类 的 定义 体 之 后 再 修改 slots__ 列表 没有 任何 作用 ， 所 以 使 用 可 变 的 序列 容易 让 人 误解 。 


19.6.2 ”处 理 属性 的 内 置 函 数 
下 述 5 个 内 置 函 数 对 对 象 的 属性 做 读 、 写 和 内 省 操作 。 
dir([object] ) 


列 出 对 象 的 大 多 数 属 性 。 官 方 文档 说 ，dir 函数 的 目的 是 交互 式 使 用 ， 
因此 没有 提供 完整 的 属性 列表 ， 只 列 出 一 组 “重要 的 ”属性 名 。dir 函数 能 审 
BA RISA  dict__ 属性 的 对 象 。dir 函数 不 会 列 出 dict_ 属性 本 
身 ， 但 会 列 出 其 中 的 键 。dir 函数 也 不 会 列 出 类 的 几 个 特殊 属性 ， 例 如 
_mro 、 bases 和 name 。 如 果 没 有 指定 可 选 的 object 参 
数 ，dir 函数 会 列 出 当前 作用 域 中 的 名 称 。 


getattr(object, name[, default] ) 


从 object 对 象 中 获取 name 字符 串 对 应 的 属性 。 获 取 的 属性 可 能 来 目 
对 象 所 属 的 类 或 超 类 。 如 果 没 有 指定 的 属性 ，getattr 函数 抛 出 
AttributeError 异常 ， 或 者 返回 default 参数 的 值 (如 果 设 定 了 这 个 
参数 的 话 ) 。 


hasattr(object, name) 


如 果 object 对 象 中 存在 指定 的 属性 ， 或 者 能 以 某 种 方式 (例如 继承 ) 
通过 object 对 象 获取 指定 的 属性 ， 返 回 True 。 文 档 说 道 : “这 个 函数 的 实 
现 方法 是 调用 getattr(object, name) 函数 ， 看 看 是 否 抛 出 
AttributeError $% °” 


setattr (object, name, value) 


把 object 对 象 指定 属性 的 值 设 为 vaLlue， 前 提 是 object 对 和 象 能 接 
受 那个 值 。 这 个 函数 可 能 会 创建 一 个 新 属性 ， 或 者 覆盖 现 有 的 属性 。 


vars([object]) 


返回 object 对 象 的 _ dict _ 属 性 ， 如 果实 例 所属 的 类 定义 了 
_ slots 属性， 实例 没有 __dict_ 属性， 那么 vars 画 数 不 能 处 理 那 
个 实例 (MUL, dir 画 数 能 处 理 这 样 的 实例 ) 。 如 果 没 有 指定 参数 ， 那 么 
vars() 画 数 的 作用 与 0cals( ) 画 数 一 样 : 返回 表示 本 地 作用 域 的 字典 。 


19.6.3 ”处 理 属 性 的 特殊 方法 

在 用 户 上 自己 定义 的 类 中 ， 下 述 特 殊 方法 用 于 获取 、 设 置 、 删 除 和 列 出 属性 。 
使 用 点 号 或 内 置 的 getattr、hasattr 和 setattr 函数 存 取 属 性 都 会 触 
发 下 述 列 表 中 相应 的 特殊 方法 。 但 是 ， 直 接 通过 实例 的 、 dict_ 属性 读 写 


a 性 不 会 触发 这 些 特殊 方法 一 一 如 果 需 要 ， 通 常会 使 用 这 种 方式 跳 过 特殊 方 
法 。 


Python 文档 “Data model” 一 章 中 的 “3.3.9. Special method lookup” 一 警告 说 ; 


对 用 户 上 自己 定 义 的 类 来 说 ， 如 果 隐 式 调用 特殊 方法 ， 仅 当 特殊 方法 在 对 
而 不 是 在 对 象 的 实例 字典 中 定义 时 ， 才 能 确保 调 


也 就 是 说 ， 要 假定 特殊 方法 从 类 上 获取 ， 即 便 操作 目标 是 实例 也 是 如 此 。 
此 ， 特 殊 方 法 不 会 补 同 名 实例 属性 迟 孟 。 


在 下 述 示例 中 ， 假 设 有 个 名 为 Class 的 类 ，obj Æ Class 类 的 实例 ， 
attr 是 obj 的 属性 。 


不 管 是 使 用 点 号 存 取 属 性 ， 还 是 使 用 19.6.2 节 列 出 的 某 个 内 置 函 数 ， 都 会 触 
发 下 述 特殊 方法 中 的 一 个 。 例 如 ，obj .attr 和 getattr(obj，'attr'， 
42) 都 会 触发 Class. getattribute (obj, 'attr') 方法 。 


__delattr__(self, name) 


只 要 使 用 del 语句 删除 属性 ， 就 会 调用 这 个 方法 。 例 如 ，del 
obj ,attr 语句 触发 Class. delattr (obj，'attr') 方法。 


_dir (self) 


把 对 象 传 给 dir 函数 时 调用 ， 列 出 属性 。 例 如 ，dir(obj ) 触发 
Class.__dir__(obj) 方法 。 


__getattr__(self, name) 


仅 当 获取 指定 的 属性 失败 ， 搜 索 过 obj + Class 和 超 类 之 后 调用 。 表 达 
式 obj,no_such_attr、getattr(obj，'no_such_attr') 和 
hasattr(obj, 'no_such_attr') 可 能 会 触发 
Class.__getattr__(obj, 'no_such_attr') AY, BÆ, M4 
obj ` Class 和 超 类 中 找 不 到 指定 的 属性 时 才 会 触发 。 


_ getattribute_ (self, name) 


尝试 获取 指定 的 属性 时 总 会 调用 这 个 方法 ， 不 过 ， 寻 找 的 属性 是 特殊 属 
性 或 特殊 方法 时 除外 。 点 号 与 getattr 和 hasattr AEKA SARAN 
方法 。 调 用 __getattribute_ _ 方法 且 抛 出 AttributeError 异常 时 ， 
会 调用 _ getattr_ 方法 。 为 了 在 获取 obj 实例 的 属性 时 不 导致 无 限 
递归 ，_ getattribute_ 方法 的 实现 要 使 用 
super(). getattribute (obj, name) ° 


__setattr__(self, name, value) 


尝试 设置 指定 的 属性 时 总 会 调用 这 个 方法 。 点 号 和 setattr AEK 
会 触发 这 个 方法 。 例 如 , obj.attr = 42 和 setattr(obj，'attr'， 
42) 都 会 触发 Class. setattr (obj，‘attr’，42) 方 法 。 


~I 其 实 ， 特 殊 方 法 _getattribute 和 _setattr _ 不 管 怎 
样 都 会 调用 ， 几 乎 会 影响 每 一 次 属性 存 取 ， 因 此 比 _ getattr_ ”方法 
(只 处 理 不 存在 的 属性 名 ) 更 难 正确 使 用 。 与 定义 这 些 特殊 方法 相 比 ， 
使 用 特性 或 措 述 符 相 对 不 易 出 错 。 


我 们 对 特性 、 特 殊 方法 和 其 他 动态 属性 编程 技术 的 讨论 到 此 结束 。 
19.7 本 章 小 结 


本 章 的 话题 是 动态 属性 编程 。 我 们 首先 举 了 几 个 实例 ， 定 义 了 几 个 简单 的 

类 ， 简 化 处 理 JSON 数据 源 的 方式 。 第 一 个 示例 是 FrozenJSON Š, ff ik 

套 的 字典 和 列表 转换 成 典 套 的 FrozenJSON 实例 和 实例 列表 。 

FrozenJSON 类 的 代码 展示 了 如 何 使 用 特殊 的 __getattr__ 方法 在 读 取 

属性 时 即时 转换 数据 结构 。FrozenJSON 类 的 最 后 一 版 展示 了 如 何 使 用 

oe eee 函数 ， 不 受 实 例 本 
p | o 


然后 ， 我 们 把 ISON 源 转 换 成 一 个 shelve.Shelf 数据 库 ， 把 序列 化 的 
Record 实例 存在 里 面 。 第 1 版 Record 人 介绍 了 “和 集束” 惯 
用 法 : ERRE init 方法 的 关键 字 参 数 ， 调 用 
self.__dict__.update(**kwargs) 构建 任意 属性 。 al ei 
对 Record 类 做 了 扩展 : 一 个 是 DbRecord 类 ， 集 成 数据 库 操 作 ; 

是 Event 类 ， 通 过 特性 自动 获取 所 链接 的 记录 。 


接着 ， 本 章 讨论 了 特性 。 我 们 定义 的 LineItem 类 中 有 个 特性 ， 确 保 
weight 属性 的 值 不 能 是 对 业务 没有 意义 的 负数 或 零 。 然 后 ， 我 们 深入 说 明 
了 特性 的 句法 和 语义 。 随 后 ， 创 建 了 一 个 特性 工厂 函数， 在 不 定义 多 个 读 值 
方法 和 设 值 方法 的 前 提 下 ， 对 weight 和 price 属性 做 相同 的 验证 。 那 个 
特性 工厂 函数 用 到 了 几 个 精妙 的 概念 ， 例 如 财 包 和 被 特性 覆盖 的 实例 属性 ， 
提供 了 优雅 的 通用 方案 ， 代 码 行 数 与 用 手工 编码 的 特性 来 验证 单个 属性 的 一 


样 多 。 


最 后 ， 我 们 简要 说 明了 如 何 使 用 特性 处 理 删 除 属性 的 操作 ， 随 后 概览 
a 核心 语言 为 支持 属性 元 编程 而 提供 的 重要 的 特殊 属性 、 内 置 画 数 和 特 
TAIT 


19.8 ”延伸 阅读 


属性 处 理 和 内 置 的 内 省 函数 的 官方 文档 在 Python 标准 库 文档 的 第 2 章 中 ， 题 
为 “Built-in Functions” 。 相 天 的 特殊 方法 和 特殊 的 __slots__ 属性 在 Python 
语言 参考 手册 中 的 “3.3.2. Customizing attribute access” 一 节 里 说 明 。 调 用 特殊 
方法 会 跳 过 实例 的 语意 原因 在 “3.3.9. Special method lookup” 一 节 中 说 明 。 
Python 标准 库 文档 的 第 4 章 *Built-in Types” Æ, “4.13. Special Attributes” — 

说 明了 __class 和 dict 属性。 


David Beazley 与 Brian K. Jones 的 《Python Cookbook (第 3 有 版， 中 文 版 》 一 
书 中 有 几 个 诀窍 涉及 本 章 的 话题 ， 不 过 我 要 重点 提出 三 个 : “8.8 在 子 类 中 扩 
展 属性 ”， 解 决 了 在 继承 目 超 类 的 特性 中 有 禾 盖 方 法 这 个 国手 问题 ; “8.15 委托 
属性 的 访问 ”， 实 现 了 一 个 代理 类 ， 展 示 了 本 书 19.6.3 市 所 列 的 大 多 数 特殊 
方法 ; 还 有 出 色 的 “9.21 避免 出 现 重 复 的 属性 方法 ”一 三 ， 示 例 19-24 中 定义 
的 特性 工厂 范 数 就 以 那 一 节 为 基础 。 


Alex Martelli 写 的 《Python 技术 手册 〈 第 2 hig) 》 只 涵盖 了 Python 2.5， 不 过 

基础 知识 也 适用 于 Python 3。 MERET ETET 讲 到 特性 时 ， 只 用 

了 3 页， 但 这 和 是 由 于 那 本 书 采 用 了 符合 四 每 的 行文 方式 : 之 前 的 15 页 已 经 

对 Python 的 类 做 了 详尽 的 说 明 ， 包 括 描述 符 ， 而 特性 就 是 使 用 描述 符 实 现 

， 他 可 以 在 3 页 的 篇 幅 中 发 表 很 多 见解 ， 例 如 本 章 开 篇 
N AJE ° 


本 章 开 头 引 用 的 统一 访问 原则 定义 出 自 Bertrand Meyer 的 优秀 著作 Object- 
Oriented Software Construction, Second Edition (Prentice-Hall 出 版 社 ) 。 这 本 
书 超过 1250 页 ， 我 承认 我 没有 读 , Bu 前 六 章 对 面向 对 象 分 析 和 设计 相 
关 概 念 的 介 绍 是 我 见 过 最 好 的 之 一 ， 第 11 ENA TRAIT (Meyer 发 明 
了 这 种 设计 方法 ， 创造 了 这 个 术语 ) ， 第 35 章 曾 述 了 他 对 重要 的 面向 对 象 
语言 的 评价 ， 包 括 Simula ` Smalltalk >` CLOS (Lisp 的 面向 对 象 扩展 ) ` 
Objective-C ` C++ 和 Java， 还 对 其 他 语言 做 了 简要 评述 。 他 还 发 明了 伪 伪 代 
码 (pseudo- pseudocode) ， 直 到 那 本 书 的 最 后 一 页 他 才 披 露 ， 全 书 用 于 编写 
伪 代 码 的 句法 其 实 出 自 Eiffel 语言 。 


站 在 美学 的 角度 来 看 ，Meyer 提出 的 统一 访问 原则 (Unifrom Access 
Principle， 喜 欢 简称 的 人 有 时 称 之 为 UAP) 很 吸引 人 。 作 为 使 用 API 的 
程序 员 ， 我 不 应 该 关心 coconut .price 只 是 获取 数据 属性 还 是 执行 计 
算 。 但 是 ， 作 为 消费 者 和 公民 ， 我 应 该 关心 : 在 电子 商务 发 达 的 今天 ， 
coconut .price 的 值 通常 取决 于 这 个 问题 由 谁 提出 ， 因 此 它 绝 不 仅仅 
是 个 数据 属性 。 其 实 ， 如 果 查 询 来 自 网 店 外 部 〈 例 如 比价 引擎 ) ， 价 格 
通常 会 低 一 些 。 显 然 ， 这 对 喜欢 浏览 竺 定 网 ) 上 的 忠实 消费 者 来 说 ， 利 益 
受到 了 损害 。 但 是 我 不 同意 


前 一 段 离 题 了 ， 可 是 却 提出 了 与 编程 有 关 的 问题 : 虽然 统一 访问 原则 在 
理想 的 世界 中 完全 合 aH, 但 在 现实 中 ，API 的 用 户 可 能 需要 知道 读 取 
coconut .price 是 否 太 耗资 源 或 时 间 。Ward Cunningham 的 维基 对 软 
na ma 的 见解 ， 他 对 统一 访问 原则 的 功 过 也 做 了 
富有 洞察 力 的 论述 。 


在 面向 对 象 编程 语言 中 ， 遵守 统一 访问 原则 通常 体现 在 句法 上 :， R 
况 是 读 取 公 开 的 数据 属 ie ILI SEAT RIE 


Smalltalk 和 Ruby 使 用 简单 而 优雅 的 方式 解决 这 个 问题 ， 根 本 不 支持 公 
开 的 数据 属性 。 在 这 两 门 语言 中 ， 所 有 实例 属性 都 是 私有 的 ， 因 此 必须 
通过 方法 来 存 取 。 不 过 ， 这 两 门 语言 的 句法 把 这 个 过 程 变 得 毫 不 费力 ; 
在 Ruby 中 ，coconut .price 会 调用 读 值 方法 price; 在 Smalltalk 
中 ， 只 需 使 用 coconut price > 


Java 采用 的 是 另 一 种 方式 ， 让 程序 员 在 四 种 访问 级 别 修饰 符 中 选择 
不 过 ， 普 通 大 众 并 不 认同 Java 设计 者 制定 的 这 种 句法 。Java ae 
认为 ， 属 性 应 该 是 私有 的 ， 但 是 每 一 次 都 要 写 出 private， 因 为 这 不 
是 默认 的 访问 级 别 。 如 果 所 有 属性 都 是 私有 的 ， 那 么 从 类 外 部 访问 属性 
就 必须 使 用 存 取 方 法 。Java IDE 提供 了 目 动 生成 存 取 方 法 的 快捷 方式 。 
但 是 ， 六 个 月 后 不 得 不 阅读 代码 时 ，IDE 没有 多 大 帮助 。 我 们 要 在 众多 
ee ， 添 加 实现 某 些 业务 逻辑 所 
需 


Alex Martelli 把 存 取 方 法 称 为 “思春 的 惯用 法 ”， 这 道 出 了 Python 社区 中 
06008 。 他 举 了 下 面 两 个 例子 ， 外 观 差 异 很 大 ， 但 是 作用 相 


someInstance.widgetCounter += 1 
# 而 不 


someInstance.setwidgetCounter(someInstance.getwidgetCounter() + 1) 


设计 API 时 ， 我 有 时 会 想 ， 能 否 把 没有 参数 (除了 self) 、 返 回 一 个 
值 (除了 None) 的 纯 函 数 〈 即 没有 副作用 ) 替换 成 只 读 特性 。 在 本 章 
中 ，LineItem.subtotal 方法 (如 示例 19-23 所 示 ) 就 可 以 替换 成 只 
读 特 性 。 当 然 ， 用 于 修改 对 象 的 方法 (如 my_list,.clear()) 不 在 此 
列 。 把 这 样 的 方法 变 成 特性 是 个 糟糕 的 想法 ， 因 为 直接 访问 

my_list.clear 就 会 删除 列表 中 的 内 容 。 


U 


ne 


在 GPIO 库 Pingo.io (3.4.2 节 提 过 ) 中 ， 多 数 用 户 级 别 的 API 都 基于 特 
性 实现 。 例 如 ， 为 了 读 取 模拟 针脚 的 当前 值 ， 用 户 要 编写 
pin.value; 为 了 设置 数字 针脚 的 模式 ， 要 写成 pin.mode = OUT ° 
在 背后 ， 读 取 模 拟 针 脚 的 值 或 设置 数字 针脚 的 模式 可 能 涉及 大 量 代码 ， 
这 取决 于 具体 的 主板 驱动 。 我 们 决定 在 Pingo 中 使 用 特性 ， 是 因为 我 们 
想 让 API 用 起 来 舒服 ， 即 便 是 在 iPython Notebook 等 交互 环 境 中 也 是 如 
此 ， 而 且 我 们 觉得 pin.mode = OUT 看 起 来 和 输入 起 来 都 比 
pin.set_mode(OUT) 容易 。 


我 觉得 Smalltalk 和 Ruby 的 处 理 方式 很 简洁 ， 但 也 认为 Python 的 处 理 方 
式 比 Java 更 合理 。 一 开始 ， 我 们 可 以 从 简单 的 方式 入 手 ， 把 数据 成 员 定 
义 为 公开 的 属性 ， 因 为 我 们 知道 这 些 属性 可 以 使 用 特性 (或 下 一 章 讨 论 
的 描述 符 ) 来 包装 


ew_ ”方法 比 new 运算 符 好 


在 Python 中 还 有 一 处 体现 了 统一 访问 原则 《或 者 它 的 变 体 ) : ERIE 
和 对 象 实例 化 使 用 相同 的 句法 一 my_obj = foo(), H+ foo 是 类 
或 其 他 可 调用 的 对 象 。 


Z C++ 句法 影响 的 其 他 语言 提供 了 new 运算 符 ， 致 使 实例 化 不 像 是 调 
用 。 大 多 数 时 候 ，API 的 用 户 不 关心 foo 是 函数 还 是 类 。 直 到 最 近 ， 我 
才 意 识 到 ，property 是 个 函数 。 在 常规 的 用 法 中 ， 这 没什么 区 别 。 


把 构造 方法 蔡 换 成 工厂 方法 有 很 多 充足 的 理由 。! 一 个 重要 的 原因 是， 
通过 返回 之 前 构建 的 实例 ， 限 制 实例 的 数量 (体现 了 单 例 模 式 ) 。 有 个 
相关 的 功能 是 ， 缓 存 构建 过 程 开销 大 的 对 象 。 此 外 ， 有 时 便于 根据 指定 
的 参数 返回 不 同类 型 的 对 象 。 


定义 构造 方法 较为 简单 ， 提供 工厂 方法 虽然 增加 了 灵活 性 ， 但 是 要 编写 
更 多 的 代码 。 在 有 new 运算 符 的 语言 中 ，API 的 设计 者 必须 提前 决定 : 
完 竟 是 坚持 使 用 简单 的 构造 方法 ， 还 是 投入 工 广 方法 的 怀抱 。 如 果 一 开 
始 选择 错 了 ， 那 么 修正 的 代价 可 能 很 大 一 一 这 一 切 都 因为 new 是 运算 
mS 

有 时 可 能 更 适合 走 另 一 条 路 ， 把 简单 的 函数 换 成 类 。 

在 Python 中 ， 很 多 情况 下 类 和 函数 可 以 互 换 。 这 不 仅 是 因为 Python 没 
有 new 运算 符 ， 还 因为 有 特殊 的 __new_ 方法， 可 以 把 类 变 成 工厂 方 


法 ， 生 成 不 同类 型 的 对 象 (如 19.1.3 节 所 述 ) ， 或 者 返回 事先 构建 好 的 
实例 ， 而 不 是 每 次 都 创建 一 个 新 实例 。 


如 果 “PEP 8 一 Style Guide for Python Code” PIERRE (E FA SEI st 
(CamelCase) ， 那 么 函数 与 类 的 对 偶 性 更 易于 使 用 。 不 过 ， 标 准 库 

中 有 很 多 类 的 名 称 是 小 写 的 〈 例 如 property、Str、 

defaultdict， 等 等 ) 。 因 此 ， 使 用 小 写 的 类 名 可 能 是 个 特色 ， 而 不 

是 缺陷 。 但 是 ， 不 管 怎 么 看 ，Python 标准 库 在 类 名 大 小 写 上 的 不 一 致 会 

导致 可 用 性 问题 。 


虽然 调用 函数 与 调用 类 没有 区 别 ， 但 古 最 好 知道 哪个 是 哪个 ， 因 为 类 还 
有 一 个 功能 ， 子 类 化 。 因 此 ， 我 编写 的 每 个 类 都 使 用 纶 峰 式 名 称 ， 而 且 
希望 Python 标准 库 中 的 所 有 类 也 使 用 这 一 约定 。 我 在 盯 着 你 呢 ， 


collections.OrderedDict #J collections.defaultdict ° 


3 包括 没有 名 称 的 默认 级 别 ，Java 教程 称 其 为 “ 包 级 私有 ”。 
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1 我 将 要 提 到 的 原因 出 自 Jonathan Amsterdam 发 布 在 Dr Dobbs Journal 中 的 一 篇 文章 ， 题 为 “Java's 
new Considered Harmful”， 以 及 Joshua Bloch 写 的 获奖 图 书 Effective Java 中 的 第 一 条 , “考虑 用 静态 
工厂 方法 代替 构造 画 数 ”。 


第 20 章 属性 描述 符 


学 会 描述 符 之 后 ， 不 仅 有 更 多 的 工具 集 可 用 ， 还 会 对 Python 的 运作 方式 
有 更 深入 的 理解 ， 并 由 圳 赞叹 Python 设计 的 优雅 。1 


Raymond Hettinger 


Python 核心 开发 者 和 专家 


1 摘自 Raymond Hettinger 写 的 “Descriptor HowTo Guide” ° 


描述 符 是 对 多 个 属性 运用 相同 存 取 逻辑 的 一 种 方式 。 例 如 ，Django ORM 和 
SQL Alchemy 等 ORM 中 的 字段 类 型 是 描述 符 ， 把 数据 库 记 录 中 字段 里 的 数 
据 与 Python 对 象 的 属性 对 应 起 来 。 


描述 符 是 实现 了 特定 协议 的 类 ， 这 个 协议 包括 get 、 set #ll 

_ delete Wik ° property 类 实现 了 完整 的 摘 述 符 协 议 。 通 钟 ， 可 以 只 
实现 部 分 协议 。 其 实 ， 我 们 在 真实 的 代码 中 见 到 的 大 多 数 描述 符 只 实现 了 
_get 和 set_ 方法 ， 还 有 很 多 只 实现 了 其 中 的 一 个 。 


描述 符 是 Python 的 独 有 特征 ， 不 仅 在 应 用 层 中 使 用 ， 在 语言 的 基础 设施 中 也 
有 用 到 。 除 了 特性 之 外 ， 使 用 描述 符 的 Python 功能 还 有 方法 及 
classmethod 和 staticmethod 装饰 器 。 理 解 描述 符 是 精通 Python 的 关 
键 。 本 章 的 话题 就 是 描述 符 。 


20.1 ”描述 符 示例 :验证 属性 


如 19.4 节 所 示 ， 特 性 工厂 函数 借助 函数 式 编程 模式 避免 重复 编写 读 值 方法 和 
设 值 方法 。 特 性 工厂 函数 是 高 阶 函 数 ， 在 闭 包 中 存储 storage_name 等 设 
置 ， 由 参数 决定 创建 哪些 存 取 范 数 ， 再 使 用 存 取 函数 构建 一 个 特性 实例 。 解 
决 这 种 问题 的 面向 对 象 方式 是 描述 符 类 。 


这 里 继续 19.4 HY LineItem 系列 示例 ， 把 quantity 特性 工厂 函数 重 构 
成 Quantity 描述 符 类 。 


20.1.1 LineItem 类 第 3 版 : 一 个 简单 的 描述 符 


实现 了 get 、 set 或 delete _ 方法 的 类 是 描述 符 。 描 述 符 
的 用 法 是 ， 创 建 一 个 实例 ， 作 为 另 一 个 类 的 类 属性 。 


我 们 将 定义 一 个 Quantity 描述 符 ，LineItem 类 会 用 到 两 个 Quantity 
实例 :一 个 用 于 管理 weight 属性 ， 另 一 个 用 于 管理 price 属性 。 示 意图 
有 助 于 理解 ， 如 图 20-1 所 示 。 


n= meemi 
| Lineltem__| 
«descriptor» 


description 
weight {storage} 
price {storage 


int 
subtotal 


设置 托管 属性 


图 20-1: LineItem 类 的 UML 示意图， 用 到 了 名 为 Quantity 的 描述 符 
X o UML 示意 图 中 带 下 划 线 的 属性 是 类 属性 。 注 意 ，weight fl price 是 
依附 在 LineItem 类 上 的 Quantity 类 的 实例 ， 不 过 LineItem 实例 也 有 
自己 的 weight 和 price 属性 ， 存 储 着 相应 的 值 


TER, TEAR 20-1 F, “weight” 这 个 词 出 现 了 两 次 ， 因 为 其 实 有 两 个 不 同 的 属 
性 都 叫 weight: 一 个 是 LineItem 的 类 属性 ， 另 一 个 是 各 个 LineItem 
对 象 的 实例 属性 。price 也 是 如 此 。 


从 现在 开始 ， 我 会 使 用 下 述 定 义 。 


描述 符 类 

实现 描述 符 协 议 的 类 。 在 图 20-1 中, Æ Quantity 类 。 
托管 类 

把 揪 述 符 实例 声明 为 类 属性 的 类 一 一 图 20-1 中 的 LineItem 类 。 
描述 符 实例 


描述 符 类 的 各 个 实例 ， 声 明 为 托管 类 的 类 属性 。 在 图 20-1 中 ， 各 个 描述 
符 实例 使 用 箭头 和 带 下 划 线 的 名 称 表示 (在 UML 中 ， 下 划 线 表示 类 属 
性 ) 。 与 黑色 萎 形 接触 的 LineItem 类 包含 描述 符 实例 。 


托管 实例 


oe o 在 这 个 示例 中 ，LineItem 实例 是 托管 实例 〈 没 在 类 图 
申 展示) © 


储存 属性 

托管 实例 中 存储 自身 托管 属性 的 属性 。 在 图 20-1 中 ，LineItem 实例 
HJ weight 和 price 属性 钙 储存 属性 。 这 种 属性 与 接 述 符 实 例 不 同 ， 插 述 
和 从 属性 都 古 类 属性 。 
托管 属性 


托管 类 中 由 描述 符 实例 处 理 的 公开 属性 ， 值 存储 在 储存 属性 中 。 也 束 是 
说 ， 描 述 符 实例 和 储存 属性 为 托管 属性 建立 了 基础 。 


Quantity 实例 是 LineItem 类 的 类 属性 ， 这 一 点 一 定 要 理解 。 图 20-2 中 
的 机 器 和 小 怪兽 强调 了 这 个 关键 点 。 


«descriptor» description 
Quantit A HTE 
scp a 
a p rice storage T=] 
int 
subtotal 


图 20-2: #4 MGN (Mills & Gizmos Notation， 机 器 和 小 怪兽 图 示 法 ) 注 

解 的 UML RA: 类 是 机 器 ， 用 于 生产 小 怪兽 (实例) -Quantity 机 器 生 
产 了 两 个 圆 头 的 小 怪兽 ， 依 附 到 LineItem 机 器 上 ， 即 weight 和 

price ° LineItem 机 器 生产 方 头 的 小 怪兽 ， 有 自己 的 weight 和 price 

属性 ， 存 储 着 相应 的 值 


机 器 和 小 怪兽 图 示 法 介绍 


我 以 前 经 季 使 用 UML 解说 摘 述 符 ， 但 是 后 来 发 现 UML 无 法 很 好 地 展 
现 类 与 实例 之 间 的 关系 ， 例 如 托管 类 与 描述 符 实例 之 间 的 关系 。“ 所 


以 ， 我 自己 发 明了 一 门 * 语 言 "一 一 机 器 和 小 怪兽 图 示 ; 
Gizmos Notation, MGN) , 使 用 它 注 解 UML 示意 图 


MGN 的 目的 是 明确 区 分 类 和 实例 。 如 图 20-3 所 示 。 在 MGN F, XMH 
BAN LAR”, 这 是 一 种 复杂 的 设备 ， 用 于 生产 小 怪兽 。 类 (机 器 ) 都 是 有 
操控 杆 和 刻度 盘 的 设备 。 小 怪兽 是 实例 ， 外 观 更 简洁 。 小 怪兽 与 生产 它 


的 机 器 具有 相同 的 颜色 。 
[ee oe 
=g 


图 20-3: MGN 简 图 表示 ，LineItem 类 生产 了 三 个 实例 ，Quantity 
类 生产 了 两 个 实例 。 其 中 一 个 Quantity 实例 从 一 个 LineItenm 实例 
中 获取 存储 的 值 


在 这 个 示例 中 ， 我 把 Lineltem 实例 画 成 表格 中 的 行 ， 各 有 三 个 单元 
格 ， 表 示 三 个 属性 (description、weight 和 price) 。 
Quantity 实例 是 摘 述 符 ， 因 此 有 个 放大 镜 ， 用 于 获取 值 
C get) ， 以 及 一 个 手 抓 ， 用 于 设置 值 ( set) 。 讲 到 元 类 
时 ， 你 会 感谢 我 画 了 这 些 涂鸦 。 


2 在 UML 类 图 中 ， 类 和 实例 都 画 成 方 框 。 虽 然 视觉 上 有 区 别 ， 但 
开发 者 可 能 认 不 出 。 


先 把 涂鸦 放 在 一 边 ， 来 看 代码 :示例 20-1 是 Quantity 描述 符 类 和 新 版 
LineItem 类 ， 用 到 两 个 Quantity 实例 。 


Niis & 
Gizmos 
Notation 


因为 类 图 中 很 少 出 现实 例 ， 所 以 


am 


示例 20-1 bulkfood_v3.py: 使 用 Quantity 描述 符 管理 LineItem 的 
属性 


class Quantity: @ 


def _ init__(self, storage_name): 
self.storage_name = storage_name @ 


def _ set (self, instance, value): © 
if value > 0: 
instance.__dict__[self.storage_name] = value @ 
else: 
raise ValueError('value must be > 0') 


class LineItem: 
weight = Quantity('weight') © 
price = Quantity('price') © 


def _ init (self, description, weight, price): © 
self.description = description 
self.weight = weight 
self.price = price 


def subtotal(self): 
return self.weight * self.price 


@ 描述 符 基 于 协议 实现 ， 无 需 创 建 子 类 。 


Ə Quantity 实例 有 个 storage_name 属性 ， 这 是 托管 实例 中 存储 值 的 属 
性 的 名 称 。 

© 党 试 为 托管 属性 赋值 时 ， 会 调用 set__ 方法。 这 里 ，se1lf 是 描述 符 
实例 ( 即 LineItem.weight 或 LineItem.price) , instance 是 托管 
实例 (LineItem 实例 ) , value 是 要 设 定 的 值 。 


@ 这 里 ， 必 须 直接 处 理 托管 实例 的 __dict__ 属性 ， 如果 使 用 内 置 的 
setattr 函数 ， 会 再 次 触发 _set_ 方法 ， 导 人 致 无 限 递 归 。 


O 第 一 个 描述 符 实例 绑 定 给 weight 属性 。 


@ 第 二 个 描述 符 实例 绑 定 给 price 属性 。 


© TS bulkfood_v1.py 脚本 〈 见 示例 19-15) 中 的 代码 
一 样 简 洁 。 


在 示例 20-1 中 ， 各 个 托管 属性 的 名 称 与 储存 属性 一 样 ， 而 且 读 值 方法 不 需要 
特殊 的 逻辑 ， 所 以 Quantity 类 不 需要 定义 ”get_ 方法 。 


示例 20-1 中 的 代码 会 像 预期 那样 运作 ， 禁 止 以 0 美元 销售 松露 ，3 


3 一 磅 白松 露 价值 几 千 美元 。 留 个 练习 给 有 进取 心 的 读者 ， 不 准 以 0.01 美元 的 价格 销售 松露 。 我 认识 
一 个 人 ， 他 以 18 美元 买 到 了 价值 1800 美元 的 统计 学 百科 全 书 ， 因 为 那个 网 店 (不 是 亚马逊) Alle 


>>> truffle = LineItem('White truffle', 100, 0) 
Traceback (most recent call last): 


ValueError: value must be > 0 


Bes 编写 set_ 方法 时 ， 要 记 住 self 和 instance 参数 的 意 
E: self 是 描述 符 实例 ，instance 是 托管 实例 。 管 理 实例 属性 的 描 
述 符 应 该 把 值 存储 在 托管 实例 中 。 因 此 ，Python 才 为 描述 符 中 的 那个 方 
法 提供 了 instance 参数 。 


你 可 能 想 把 各 个 托管 属性 的 值 直接 存在 描述 符 实 例 中 ， 但 是 这 种 做 法 是 错误 
的 。 也 就 是 说 ,在 set_ 方法 中 ， 应 该 像 下 面 这 样 写 : 


instance._dict_ [self.storage _ name] = value 


而 不 能 试图 使 用 下 面 这 种 错误 的 写法 : 


self.__dict__[self.storage_name] = value 


为 了 理解 错误 的 原因 ， 可 以 想 想 __set__ 方法 前 两 个 参数 (self 和 
instance) 的 意思 。 这 里 ，self 是 描述 符 实 例 ， 它 其 实 是 托管 类 的 类 属 
性 。 同 一 时 刻 ， 内 存 中 可 能 有 几 千 个 LineItem 实例 ， 不 过 只 会 有 两 个 描述 
符 实例 : LineItem.weight 和 LineItem,price。 因 此 ， 存 储 在 描述 符 
实例 中 的 数据 ， 其 实 会 变 成 LineItem 类 的 类 属性 ， 从 而 由 全 音 


LineItem 实例 共享 。 


示例 20-1 有 个 缺点 ， 在 托管 类 的 定义 体 中 实例 化 描述 符 时 要 重复 输入 属性 的 
名 称 。 如 果 LineItem 类 能 像 下 面 这 样 声明 就 好 了 


class LineItem: 
weight = Quantity() 
price = Quantity() 


# 余下 的 方法 与 之 前 一 样 


可 问题 是 ， 正 如 第 8 章 说 过 的 ， 赋 值 语句 右手 边 的 表达 式 先 执行 ， 而 此 时 变 
量 还 不 存在 。 Quantity() 表达 式 计算 的 结果 是 创建 描述 符 实例 ， 而 此 时 


Quantity 类 中 的 代码 无 法 猜 出 要 把 描述 符 绑 定 给 哪个 变量 《例如 weight 


或 price) 


因此 ， 示 例 20-1 必须 明确 指明 各 个 Quantity 实例 的 名 称 。 这 样 不 仅 麻 

烦 ， 还 很 危险 :如果 程序 员 直 接 复制 粘贴 代码 而 忘 了 编辑 名 称 ， 比 如 写成 

price = Quantity('weight')， 那 么 程序 的 行为 会 大 错 特 错 ， 设 置 

price MENSA m weight 的 值 。 
会 介绍 


下 一 一 个 不 太 优 雅 但 是 可 行 的 方案 ， 解 决 这 个 重复 输入 名 称 的 问 
题 。 更 好 的 解决 方案 是 使 用 类 装饰 器 或 元 类 ， 等 到 第 21 章 再 介绍 。 
20.1.2 LineItem 类 第 4 版 ， 自 动 获 取 储 存 属 性 的 名 称 


为 了 避免 在 描述 符 声 明 语句 中 重复 输入 属性 名 ， 我 们 将 为 每 个 Quantity 实 
例 的 storage_name 属性 生成 一 个 独一无二 的 字符 串 。 图 20-4 是 更 新 后 的 
Quantity 和 LineItem 类 的 UML 类 图 。 


«descriptor» 
Quantit 


storage_name 


__init _ Quantity#1 {storage 
_ get __init__ 
_- Set __ subtotal 


description 
_Quantity#0 {storage} 


图 20-4: 示例 20-2 的 UML 类 图 。 现 在 ，Quantity 类 既 有 ”get FF 
法 , 也 有 set 方法， Lineltem 实例 中 储存 属性 的 名 称 是 生成 的 ， 
_Quantity#0 和 Quantity#1 


为 了 生成 storage_name， 我 们 以 '_Quantity#' 为 前 级 ， 然 后 在 后 面 拼 
接 一 个 整数 : Quantity. counter 类 属性 的 当前 值 ， 每 次 把 一 个 新 的 
Quantity 描述 符 实 例 依 附 到 类 上 ， 都 会 递增 这 个 值 。 在 前 绥 中 使 用 井 号 能 
避免 storage_name 与 用 户 使 用 点 号 创建 的 属性 冲突 ， 因 为 
nutmeg._Quantity#0 是 无 效 的 Python 句法 。 但 是 ， 内 置 的 getattr 和 
setattr 函数 可 以 使 用 这 种 “无 将 的 ”标识 符 获 取 和 设置 属性 ， 此 外 也 可 以 
直接 处 理 实例 属性 dict__。 示 例 20-2 是 新 的 实现 。 


示例 20-2 bulkfood_v4.py: A Quantity 描述 符 都 有 独一无二 的 
storage_name 


class Quantity: 
_ counter =0 @ 


def __ init__(self): 
cls = self. class  @ 
prefix = cls.__name__ 
index = cls.__counter 
self.storage_name = '_{}#{}'.format(prefix, index) © 
cls. counter += 1 @ 


def _ get (self, instance, owner): © 
return getattr(instance, self.storage_name) © 


def _set__(self, instance, value): 
if value > 0: 
setattr(instance, self.storage_name, value) @ 
else: 
raise ValueError('value must be > 0') 


class LineItem: 
weight = Quantity() ® 
price = Quantity() 


def _ init__(self, description, weight, price): 
self.description = description 
self.weight = weight 
self.price = price 


def subtotal(self): 
return self.weight * self.price 


@ counter = Quantity 类 的 类 属性 ， 统 计 Quantity 实例 的 数量 。 


@ cls Æ Quantity 类 的 引用 。 

© 每 个 描述 符 实例 的 storage_name 属性 都 是 独一无二 的 ， 因 为 其 值 由 描 
ht RAZ BRAD counter 属性 的 当前 值 构 成 (例如 ， 

_Quantity#0) 。 

O 638 counter 属性 的 值 。 


O 我 们 要 实现 get_ 方法 ， 因 为 托管 属性 的 名 称 与 storage_name 不 
同 。 稍 后 会 说 明 owner 参数 。 


O 使 用 内 置 的 getattr 函数 从 instance 中 获取 储存 属性 的 值 


0 


@ 使 用 内 置 的 setattr 函数 把 值 存 储 在 instance 中 。 


O 现在 ， 不 用 把 托管 属性 的 名 称 传 给 Quantity 构造 方法 。 这 是 这 一 版 的 
目标 。 


这 里 可 以 使 用 内 置 的 高 阶 画 数 getattr 和 setattr 存 取 值 ， 无 需 使 用 
instance. dict ， 因 为 托管 属性 和 储存 属性 的 名 称 不 同 ， 所 以 把 储存 
属性 传 给 getattr 函数 不 会 触发 描述 符 ， 不 会 像 示 例 20-1 那样 出 现 无 限 递 
归 。 


测试 bulkfood_v4.py 脚本 之 后 你 会 发 现 ，weight 和 price 描述 符 能 按 预期 
使 用 ， 而 且 储 存 属性 也 能 直接 读 取 一 一 这 对 调试 有 帮助 : 


>>> from bulkfood_v4 import LineItem 
>>> coconuts = LineItem('Brazilian coconut', 20, 17.95) 
>>> coconuts.weight, coconuts.price 


(20, 17.95) 
>>> getattr(coconuts, '_Quantity#0'), getattr(coconuts, '_Quantity#1') 
(20, 17.95) 


` 如 果 想 使 用 Python 矫正 名 称 的 约定 方式 (例如 
_LineItem__quantityO) ， 要 知道 托管 类 ( 即 LineItem) 的 名 
称 ， 可 是 ， 解 释 器 要 先 运 行 类 的 定义 体 才 能 构建 类 ， 因 此 创建 描述 符 实 
例 时 得 不 到 那个 信息 。 不 过 ， 对 这 个 示例 来 说 ， 为 了 防止 不 小 心 被 子 类 
履 盖 ， 不 用 包含 托管 类 的 名 称 ， 因 为 每 次 实例 化 新 的 描述 符 ， 描 述 符 类 
的 counter 属性 都 会 递增 ， 从 而 确保 每 个 托管 类 的 每 个 储存 属性 的 
名 称 都 是 独一无二 的 。 


注意 ，_ get_ 方法 有 三 个 参数 : self、instance 和 owner ° owner 
参数 是 托管 类 (如 LineItem) 的 引用 ， 通 过 描述 符 从 托管 类 中 获取 属性 时 
用 得 到 。 如 果 使 用 LineItem.weight 从 类 中 获取 托管 属性 (L weight 
HAD ， 描 述 符 的 get_ ”方法 接收 到 的 instance 参数 值 是 None。 
此 ， 下 述 控 制 台 会 话 才 会 抛 出 AttributeError 异常 : 


>>> from bulkfood_v4 import LineItem 
>>> LineItem.weight 
Traceback (most recent call last): 


File ".../descriptors/bulkfood_v4.py", line 54, in __get__ 
return getattr(instance, self.storage_name) 
AttributeError: 'NoneType' object has no attribute '_Quantity#0' 


抛 出 AttributeError ise get ”方法 的 方式 之 一 ， 如 果 选 择 
这 么 做 ， 应 该 修改 错误 消息 ， 去 掉 令 人 困惑 的 NoneType 和 
_Quantity#0， 这 是 实现 细节 。 把 错误 消息 改 成 "'LineItem' class 
has no such attribute" 更 好 。 最 好 能 给 出 缺少 的 属性 名 ， 但 是 在 这 
个 示例 中 ， 描 述 符 不 知道 托管 属性 的 名 称 ， 因 此 目前 只 能 做 到 这 样 。 


此 外 ， 为 了 给 用 户 提 供 内 省 和 其 他 元 编程 技术 支持 ， 通 过 类 访问 托管 属性 
时 ， 最 好 让 get ”方法 返回 描述 符 实例 。 示 例 20-3 对 示例 20-2 做 了 小 
Wario), K Quantity. get_ ”方法 添加 了 一 些 逻 辑 。 


示例 20-3 bulkfood_v4b.py (只 列 出 部 分 代码 ) : 通过 托管 类 调用 时 
__get ”方法 返回 描述 符 的 引用 


class Quantity: 
__ counter = 0 


def __ init__(self): 
cls = self.__class__ 
prefix = cls.__name__ 
index = cls.__counter 
self.storage_name = '_{}#{}'.format(prefix, index) 
cls.__ counter += 1 


__get__(self, instance, owner): 


if instance is None: 
return self @ 
else: 
return getattr(instance, self.storage_name) @ 


__set__(self, instance, value): 
if value > 0: 

setattr(instance, self.storage_name, value) 
else: 

raise ValueError('value must be > 0') 


@ 如 果 不 是 通过 实例 调用 ， 返 回 描述 符 上 自身 。 
四 否则 ， 像 之 前 一 样 ， 返 回 托管 属性 的 值 
测试 示例 20-3， 会 看 到 如 下 结 


o 


>>> from bulkfood_v4b import LineItem 

>>> LineItem.price 

<bulkfood_v4b.Quantity object at 0x100721be0> 
>>> br_nuts = LineItem('Brazil nuts', 10, 34.95) 


>>> br_nuts.price 
34.95 


看 着 示例 20-2， 你 可 能 觉得 就 为 了 管理 几 个 属性 而 编写 这 么 多 代码 不 值得 ， 
但 是 要 知道 ， 描 述 符 逻 辑 现在 被 抽象 到 单独 的 代码 单元 (Quantity 类 ) 中 
了 。 通 常 ， 我 们 不 会 在 使 用 描述 符 的 模块 中 定义 描述 符 ， 而 是 在 一 个 单独 的 
实用 工具 模块 中 定义 ， 以 便 在 整个 应 用 中 使 用 一 一 如 果 开 发 的 是 框架 ， 甚 至 
会 在 多 个 应 用 中 使 用 。 


了 解 这 一 点 之 后 就 可 推 知 ， 示 例 20-4 是 描述 符 的 常规 用 法 。 


示例 20-4 bulkfood_v4c.py: 整洁 的 LineItem 类 ; Quantity 描述 符 
类 现在 位 于 导入 的 model_v4c 模块 中 


import model v4c as model @ 


class LineItem: 
weight = model.Quantity() @ 
price = model.Quantity() 


def _ init__(self, description, weight, price): 
self.description = description 
self.weight = weight 
self.price = price 


subtotal(self): 
return self.weight * self.price 


@ 导入 model_v4c 模块 ， 指 定 一 个 更 友好 的 名 称 。 
@ 使 用 model.Quantity 描述 符 。 


Django 用 户 会 发 现 ， 示 例 20-4 非常 像 模型 定义 。 这 不 是 巧合 ，Django 模型 
的 字段 就 是 描述 符 。 


` 就 目前 的 实现 来 说 ，Quantity 描述 符 能 出 色 地 完成 任务 。 它 唯 
一 的 缺点 是 ， 储 存 属 性 的 名 称 征 生成 的 《如 Quantity#0) ， 导 致 用 
户 难以 调试 。 但 这 是 不 得 已 而 为 之 ， 如 果 想 自动 把 储存 属性 的 名 称 设 成 
与 托管 属性 的 名 称 类 似 ， 和 需要 用 到 类 装饰 器 或 元 类 ， 而 这 两 个 话题 到 第 


21 章 才 会 讨论 。 


描述 符 在 类 中 定义 ， 因 此 可 以 利用 继承 重用 部 分 代码 来 创建 新 描述 符 。 下 一 


PARAM 
特性 工厂 函数 与 描述 符 类 比较 


特性 工厂 函数 者 想 实现 示例 20-2 中 增强 的 描述 符 类 并 不 难 ， 只 需 在 示例 
19-24 的 基础 上 添加 几 行 代 码 。__counter 变量 的 实现 方式 是 个 难点 ， 
不 过 我 们 可 以 把 它 定 义 成 工厂 函数 对 象 的 属性 ， 以 便 在 多 次 调用 之 间 持 
续 存 在 ， 如 示例 20-5 所 示 。 


示例 20-5 bulkfood_v4prop.py: 使 用 特性 工厂 函数 实现 与 示例 20- 
2 中 的 描述 符 类 相同 的 功能 


def quantity(): @ 
try: 
quantity.counter t= 1 @ 
except AttributeError: 
quantity.counter =0 © 


storage_name = '_{}:{}'.format('quantity', quantity.counter) ©@ 


def qty_getter(instance): © 
return getattr(instance, storage_name) 


def qty_setter(instance, value): 
if value > 0: 
setattr(instance, storage_name, value) 
else: 
raise ValueError('value must be > 0') 


return property(qty_getter, qty_setter) 


@ 没有 storage_name 参数 。 


@ 不 能 依靠 类 属性 在 多 次 调用 之 间 共 享 counter ， 因 此 把 它 定义 为 
quantity 函数 自身 的 属性 。 


© 如 果 quantity.counter 属性 未 定义 ， 把 值 设 为 0。 
@ 我 们 也 没有 实例 变量 ， 因 此 创建 一 个 局 部 变量 storage_name, f8 


助 闭 包 保持 它 的 值 ， 供 后 面 的 qty_getter 和 qty_setter 函数 使 
用 。 


O 余下 的 代码 与 示例 19-24 一 样 ， 不 过 这 里 可 以 使 用 内 置 的 getattr 
和 setattr 函数 ， 而 不 用 处 理 instance. dict__ 属性 。 


那么 ， 你 喜欢 哪个 ? 示例 20-2 还 是 示例 20-5? 
我 喜欢 描述 符 类 那 种 方式 ， 主 要 有 下 列 两 个 原因 。 


。 描述 符 类 可 以 使 用 子 类 扩展 ; 者 想 重 用 工厂 函数 中 的 代码 ， 除 了 复 
制 粘贴 ， 很 难 有 其 他 方法 。 


。 与 示例 20-5 中 使 用 函数 属性 和 闭 包 保持 状态 相 比 ， 在 类 属性 和 实例 
属性 中 保持 状态 更 易于 理解 。 


此 外 ， 解 说 示例 20-5 时 ， 我 没有 画 机 器 和 小 怪兽 的 动力 。 特 性 工厂 函数 
的 代码 不 依赖 奇怪 的 对 象 关系 ， 而 描述 符 的 方法 中 有 名 为 self 和 
instance 的 参数 ， 表 明 里 面 涉及 奇怪 的 对 象 关系 。 


总 之 ， 从 某 种 程度 上 来 讲 ， 特 性 工厂 函数 模式 较 简单 ， 可 是 描述 符 类 方 
式 更 易 扩展 ， 而 且 应 用 也 更 广泛 。 


20.1.3 LineItem 类 第 5 版 : 一 种 新 型 描述 符 


我 们 虚构 的 有 机 食物 网 店 遇 到 一 个 问题 ， 不 知 怎么 回 事 儿 ， 有 个 商品 的 描述 
信息 为 空 ， 导 致 无 法 下 订单 。 为 了 避免 出 现 这 个 问题 ， 我 们 要 再 创建 一 个 描 
述 符 ，NonBlank。 在 设计 NonBlank 的 过 程 中 ， 我 们 发 现 ， 它 与 
Quantity 描述 符 很 像 ， 只 是 验证 逻辑 不 同 。 

回想 Quantity 的 功能 ， 我 们 注意 到 它 做 了 两 件 不 同 的 事 ， 管理 托管 实例 中 


的 储存 属性 ， 以 及 验证 用 于 设置 那 两 个 属性 的 值 。 由 此 可 知 ， 我 们 可 以 重 
构 ， 并 创建 两 个 基 类 。 


AutoStorage 
自动 管理 储存 属性 的 描述 符 类 。 
Validated 


扩展 AutoStorage 类 的 抽象 子 类 ， 禾 盖 ”set 方法， 调用 必须 由 
子 类 实现 的 validate 方法 。 


SE Quantity 类 ， 并 实现 NonBLank， 让 它 继承 Validated 


5 validate 方法 。 类 之 间 的 关系 见 图 20-5。 
«descriptor» 
Quantit 
ae 
AutoStorage «descriptor» 
validate 
__ counter Validated 4 
storage_name_|<{ noe 


我 们 稍 
类 ， 只 


a 可 


l «descriptor» 
as validate NonBlank 
一 一 一 | 

图 20-5: 几 个 描述 符 类 的 层次 结构 。AutoStorage 基 类 负责 自动 存储 属 


性 ; Validated 类 做 验证 ， 把 职责 委托 给 抽象 方法 validate; 
Quantity 和 NonBlank 是 Validated 的 具体 子 类 


Validated ` Quantity 和 NonBlank 三 个 类 之 间 的 关系 体现 了 模板 方法 
设计 模式 。 具 体 而 言 ，Validated. set _ 方法 正 是 Gamma 等 四 人 所 描 
述 的 模板 方法 的 例证 : 


一 个 模板 方法 用 一 些 抽 象 的 操作 定义 一 个 算法 ， 而 子 类 将 重 定义 这 些 操 
作 以 提供 具体 的 行为 。4 


4《 设 计 模 式 : 可 复 用 面向 对 象 软件 的 基础 》 第 215 页 。 


这 里 ， 抽 和 象 的 操作 是 验证 。 示 例 20-6 列 出 图 20-5 中 各 个 类 的 实现 。 


示例 20-6 model v5.py: 重 构 后 的 描述 符 类 5 


5 因为 20.5 节 有 文档 字符 串 的 截图 ， 为 了 保持 一 致 ， 所 以 这 里 的 文档 字符 串 不 翻译 。-_ 译 者 注 


import abc 


class AutoStorage: @ 
__ counter = 0 


def _ init__(self): 
cls = self.__class__ 
prefix = cls. name _ 
index = cls. counter 


self.storage_name = '_{}#{}'.format(prefix, index) 
cls.__ counter += 1 


def _get_ (self, instance, owner): 
if instance is None: 
return self 
else: 


return getattr(instance, self.storage_name) 


def _ set_ (self, instance, value): 
setattr(instance, self.storage_name, value) @ 


class Validated(abc.ABC, AutoStorage): © 


def _ set_ (self, instance, value): 
value = self.validate(instance, value) @ 
super().__set__(instance, value) © 


@abc.abstractmethod 
def validate(self, instance, value): © 
"""return validated value or raise ValueError"™"" 


class Quantity(Validated): @ 
"""a number greater than zero"™"" 


def validate(self, instance, value): 
if value <= 0: 
raise ValueError('value must be > 0') 
return value 


class NonBlank(Validated): 
"""a string with at least one non-space character""" 


def validate(self, instance, value): 
value = value.strip() 
if len(value) == 0: 
raise ValueError('value cannot be empty or blank') 
return value © 


@ AutoStorage 类 提供 了 之 前 Quantity 描述 符 的 大 部 分 功能 


@ ..…... 验 证 除外 。 


© Validated 是 抽象 类 ， 不 过 也 继承 自 AutoStorage 类 。 
@_ set _ 方法 把 验证 操作 委托 给 validate 方法 


日 .…….. 然 后 把 返回 的 value 传 给 超 类 的 __set_ 方法， 存储 值 。 
O 在 这 个 类 中 ，validate 是 抽象 方法 。 
@ Quantity 和 NonBlank 都 继承 自 Validated 类。 


@ 要 求 具体 的 validate 方法 返回 验证 后 的 值 ， 借 机 可 以 清理 、 转 换 或 规 
范 化 接收 的 数据 。 这 里 ， 我 们 把 value 首尾 的 空白 去 掉 ， 然 后 将 其 返回 。 


model_v5.py 脚本 的 用 户 不 需要 知道 全 部 细节 。 用 户 只 需 知道 ， 他 们 可 以 使 
FA Quantity 和 NonBlank 自动 验证 实例 属性 。 参 见 示例 20-7 中 的 最 新 版 
LineItem Žž ° 


示例 20-7 bulkfood_v5.py: 使 用 Quantity 7U NonBlank 描述 符 的 
LineItem 类 


import model v5 as model @ 


class LineItem: 
description = model.NonBlank() @ 
weight = model.Quantity() 
price = model.Quantity() 


def _ init__(self, description, weight, price): 
self.description = description 
self.weight = weight 
self.price = price 


subtotal(self): 
return self.weight * self.price 


@ =A model_v5 模块 ， 指 定 一 个 更 友好 的 名 称 。 

© 使 用 model. NonBlank 描述 符 。 其 余 的 代码 没 变 。 

本 章 所 举 的 几 个 LineItem 示例 演示 了 描述 符 的 典型 用 途 一 管理 数据 属 
性 。 这 种 描述 符 也 叫 履 盖 型 描述 符 ， 因 为 描述 符 的 __ set_ ”方法 使 用 托管 


实例 中 的 同名 属性 覆盖 〈 即 插手 接管 ) 了 要 设置 的 属性 。 不 过 ， 也 有 非 覆 盖 
型 摘 述 符 。 下 一 节 会 评述 这 两 种 搬 述 符 之 间 的 区 别 。 


20.2 ” 禾 盖 型 与 非 履 盖 型 描述 符 对 比 


如 前 所 述 ，Python 存 取 属 性 的 方式 特别 不 对 等 。 通 过 实例 读 取 属 性 时 ， 通 秆 
返回 的 是 实例 中 定义 的 属性 ; 但 是 ， 如 果实 例 中 没有 指定 的 属性 ， 那 么 会 获 
和 o 而 为 实例 中 的 属性 赋值 时 ， 通 稼 会 在 实例 中 创建 属性 ， 根 本 不 影 
mes 


这 种 不 对 等 的 处 理 方式 对 描述 符 也 有 影响 。 其 实 ， 根 据 是 否定 义 _ set__- 
方法 ， 描 述 符 可 分 为 两 大 类 。 兰 想 观 察 这 两 类 描述 符 的 行为 差异 ， 则 需要 使 
用 几 个 类 。 我 们 将 使 用 示例 20-8 中 的 代码 作为 接 下 来 几 节 的 试验 台 。 


` 在 示例 20-8 F, FS __get__ 和 _ set_ 方法 都 调用 了 
print_args 函数 ， 使 调用 方式 易于 阅读 。 没 必要 深入 理解 
print_args 函数 及 辅助 画 数 cls_name 和 display， 因 此 不 要 花心 
思 人 研究 它们 。 


示例 20-8 descriptorkinds.py: 几 个 简单 的 类 ， 用 于 研究 描述 符 的 覆盖 
行为 


HHH 辅助 画 数 ， 仅 用 于 显示 ### 


def cls_name(obj_or_cls): 
cls = type(obj_or_cls) 
if cls is type: 
cls = obj_or_cls 
return cls.__name__.split('.')[-1] 


def display(obj): 
cls = type(obj) 
if cls is type: 
return ‘<class {}>'.format(obj.__name__) 
elif cls in [type(None), int]: 
return repr(obj) 
else: 
return '<{} object>'.format(cls_name(obj) ) 


def print_args(name, *args): 
pseudo_args = ', '.join(display(x) for x in args) 
print('-> {}.__{}__({})'.format(cls_name(args[0]), name, 
pseudo_args) ) 


HHH 对 这 个 示例 重要 的 类 ### 


class Overriding: @ 


""" 也 称 数据 描述 符 或 强制 描述 符 """ 


def _get_ (self, instance, owner): 
print_args('get', self, instance, owner) @ 


def _set__(self, instance, value): 


print_args('set', self, instance, value) 


class OverridingNoGet: ® 
"gA ` get 方法 的 覆盖 型 描述 符 """ 


def _ set_ (self, instance, value): 
print_args('set', self, instance, value) 


class NonOverriding: ©@ 
""" 也 称 非 数据 描述 符 或 遮盖 型 描述 符 """ 


def _get_ (self, instance, owner): 
print_args('get', self, instance, owner) 


class Managed: © 
over = Overriding() 
over_no_get = OverridingNoGet() 
non_over = NonOverriding( ) 


def spam(self): © 
print('-> Managed.spam({})'.format(display(self))) 


o get 和 set 方法 的 典型 覆盖 型 描述 符 。 

@ 在 这 个 示例 中 ， 各 个 描述 符 的 每 个 方法 都 调用 了 print_args K% ° 
ORA get_ ”方法 的 禾 兰 型 描述 符 。 

ORA set 方法 ,所 以 这 是 非 覆 盖 型 描述 符 。 

© 托管 类 ， 使 用 各 个 描述 符 类 的 一 个 实例 。 

@ spam 方法 放 在 这 里 是 为 了 对 比 ， 因 为 方法 也 是 描述 符 。 


在 接 下 来 的 几 节 中 ， 我 们 要 分 析 对 Managed 类 及 其 实例 做 属性 读 写 时 的 行 
为 ， 还 会 讨论 所 定义 的 各 个 描述 符 。 


20.2.1 覆盖 型 描述 符 


实现 _ set_ ”方法 的 描述 符 属 于 覆盖 型 描述 符 ， 因 为 虽然 描述 符 是 类 属 

性 ， 但 是 实现 set_ ”方法 的 话 ， 会 覆盖 对 实例 属性 的 赋值 操作 。 示 例 20- 
2 就 是 这 样 实现 的 。 特 性 也 是 覆盖 型 描述 符 : 如 果 没 提供 设 值 函数 ， 
property 类 中 的 set_ ”方法 会 抛 出 AttributeError 异常 ， 指 明 那 
个 属性 是 只 读 的 。 我 们 可 以 使 用 示例 20-8 中 的 代码 测试 覆盖 型 描述 符 的 行 
为 ， 如 示例 20-9 所 示 。 


示例 20-9 履 盖 型 描述 符 的 行为 ， 其 中 obj ,over 是 Overriding 类 
( 见 示 例 20-8) 的 实例 


>>> obj = Managed() @ 

>>> obj.over @ 

-> Overriding.__get__(<Overriding object>, <Managed object>, 
<class Managed>) 

>>> Managed.over ® 

-> Overriding.__get__(<Overriding object>, None, <class Managed>) 

>>> obj.over = 7 @ 

-> Overriding.__set__(<Overriding object>, <Managed object>, 7) 

>>> obj.over © 

-> Overriding.__get__(<Overriding object>, <Managed object>, 
<class Managed>) 

>>> obj.__dict__['over'] =8 9 

>>> vars(obj) @ 

{'over': 8} 

>>> obj.over © 

-> Overriding._get__(<Overriding object>, <Managed object>, 
<class Managed>) 


@ 创建 供 测试 使 用 的 Managed 对 象 。 


@ obj .over 触发 描述 符 的 get_ 方法 ， 第 二 个 参数 的 值 是 托管 实例 
obj ° 


© Managed. over 触发 描述 符 的 __get__ 方 法， 第 二 个 参数 
(instance) 的 值 是 None。 


@ 为 obj .over 赋值 ， 触 发 描述 符 的 set_ 方法， 最 后 一 个 参数 的 值 是 
7° 


O 读 取 obj.over, PMA FA get__ 方法 。 
O 跳 过 描述 符 ， 直 接 通 过 obj. dict _ 属性 设 值 。 
o 确认 值 在 obj. dict _ 属性 中 ， 在 over 键 名 下 。 


@ 人 然而， 即使 是 名 为 over 的 实例 属性 ，Managed .over 描述 符 仍 会 覆盖 
读 取 obj .over 这 个 操作 。 


20.2.2 没有 _ get_ 方法 的 覆盖 型 描述 符 


通常 ， 履 盖 型 描述 符 既 会 实现 set 方法， 也 会 实现 “get _ 方法 ， 
不 过 也 可 以 只 实现 __set__ 方 法， 如 示例 20-1 所 示 。 此 时 ， 只 有 写 操 作 由 
描述 符 处 理 。 通 过 实例 读 取 描述 符 会 返回 描述 符 对 象 本 身 ， 因 为 没有 处 理 读 
操作 的 __get__ 方 法。 如 果 直 接 通 过 实例 的 __dict__ 属 性 创建 同名 实例 
属性 ， 以 后 再 设置 那个 属性 时 ， 仍 会 由 __set__ 方法 插手 接管 ， 但 是 读 取 
那个 属性 的 话 ， 就 会 直接 从 实例 中 返回 新 赋予 的 值 ， 而 不 会 返回 描述 符 对 
象 。 也 就 是 说 ， 实 例 属性 会 遮盖 描述 符 ， 不 过 只 有 读 操 作 是 如 此 。 参见 示 例 
20-10。 


示例 20-10 没有 get_ 方法 的 覆盖 型 描述 符 ， 其 中 
obj.over_no_get 是 OverridingNoGet 类 (〈 见 示例 20-8) 的 实例 


>>> obj.over_no_get @ 

<__main__.OverridingNoGet object at 0x665bcc> 

>>> Managed.over_no_get @ 

<__main__.OverridingNoGet object at 0x665bcc> 

>>> obj.over_no_get = 7 © 

-> OverridingNoGet.__set__(<OverridingNoGet object>, <Managed 
object>, 7) 

>>> obj.over_no_get @ 

<__main__.OverridingNoGet object at 0x665bcc> 


>>> obj.__dict__['over_no_get'] =9 © 
>>> obj.over_no_get @ 
9 


>>> obj.over_no_get = 7 © 

-> OverridingNoGet.__set__(<OverridingNoGet object>, <Managed 
object>, 7) 

>>> obj.over_no_get ® 

9 


OME mA A get_ 方法， 因此，obj .over_no_get 从 类 
中 获取 描述 符 实例 。 


@ 直接 从 托管 类 中 读 取 描述 符 实例 也 是 如 此 。 
© 为 obj .over_no_get 赋值 会 触发 撒 述 符 的 set_ ”方法 。 


@ 因为 ” set 方法 没有 修改 属性 ， 所 以 在 此 读 取 obj. over_no_get 
获取 的 仍 是 托管 类 中 的 描述 符 实 例 。 


日 通过 实例 的 _dict ”属性 设置 名 为 over_no_get 的 实例 属性 。 


O 现在 ，over_no_get 实例 属性 会 遮 善 朱 述 符 ， 但 是 只 有 读 操 作 是 如 此 。 
@ 4 obj.over_no_get 赋值 ， 仍 然 经 过 摘 述 符 的 set_ ”方法 处 理 。 
O 但 是 读 取 时 ， 只 要 有 同名 的 实例 属性 ， 描 述 符 就 会 被 遮盖 。 

20.2.3” 非 履 盖 型 描述 符 

没有 实现 set_ ”方法 的 描述 符 是 非 覆 盖 型 描述 符 。 如 果 设 置 了 同名 的 实 
例 属性 ， 描 述 符 会 被 逛 盖 ， 致 使 描述 符 无 法 处 理 那 个 实例 的 那个 属性 。 方 法 
是 以 非 履 盖 型 描述 符 实现 的 。 示 例 20-11 Eas SO ESS e hR 
VE © 


示例 20-11 4h RMA TAN, EE obj.non_over 是 
NonOverriding 类 ( 见 示例 20-8) 的 实例 


>>> obj = Managed() 

>>> obj.non_over @ 

-> NonOverriding.__get__(<NonOverriding object>, <Managed object>, 
<class Managed>) 

>>> obj.non_over = 7 @ 

>>> obj.non_over © 

7 


>>> Managed.non_over ©@ 
-> NonOverriding.__get__(<NonOverriding object>, None, <class 
Managed>) 
>>> del obj.non_over © 
>>> obj.non_over © 
-> NonOverriding.__get__(<NonOverriding object>, <Managed object>, 
<class Managed>) 


@ obj .non_over 和 触发 描述 符 的 _ get_ 方法， 第 二 个 参数 的 值 是 
obj ° 


@ Managed.non_over 是 非 履 盖 型 描述 符 ， 因 此 没有 干涉 赋值 操作 的 
set 方法。 


© HE, obj 有 个 名 为 non_over 的 实例 属性 ， 把 Managed 类 的 同名 描述 
符 属 性 遮盖 掉 。 


@Managed.non_over 描述 符 依然 存在 ， 会 通过 类 截获 这 次 访问 。 


O 如 果 把 non_over 实例 属性 删除 了 ..…….. 


O 那么 ， 读 取 obj.non_over if, SARA PUTA get 方法 ; 
但 要 注意 ， 第 二 个 参数 的 值 是 托管 实例 。 


Beh Python 页 献 者 和 作者 讨论 这 些 概念 时 会 使 用 不 同 的 术语 。 禾 盖 型 
描述 符 也 叫 数 据 换 述 符 或 强制 搞 述 符 。 非 黎 凑 型 摘 述 符 也 叫 非 数 据 摘 述 
符 或 遮盖 型 描述 符 。 
在 上 述 几 个 示例 中 ， 我 们 为 几 个 与 描述 符 同 名 的 实例 属性 赋 了 值 ， 结 有 果 依 描 
述 符 中 是 否 有 __set_ 方法 而 有 所 不 同 。 


依附 在 类 上 的 描述 符 无 法 控制 为 类 属性 赋值 的 操作 。 其 实 ， 这 意味 着 为 类 属 
性 赂 值 能 覆盖 搬 述 符 属 性 ， 正 如 下 一 市 所 壕 的 。 


20.2.4 ”在 类 中 禾 盖 描述 符 
不 管 摘 述 符 是 不 是 履 兰 型 ， 为 类 属性 赋值 都 能 禾 盖 朱 述 符 。 这 是 一 种 猴子 补 
本 技术， 不 过 在 示例 20-12 中 ， 我 们 把 描述 符 替 换 成 了 整数 ， 这 其 实 会 导致 
依赖 描述 符 的 类 不 能 正确 地 执行 操作 。 

示例 20-12 ”通过 类 可 以 覆盖 任何 描述 符 


>>> obj = Managed() @ 
>>> Managed.over = 1 @ 
>>> Managed.over_no_get = 2 


>>> Managed.non_over = 3 
>>> obj.over, obj.over_no_get, obj.non_over ® 
(1, 2, 3) 


@ 为 后 面 的 测试 新 建 一 个 实例 。 

O 复 关 类 中 的 摘 述 符 属 性 。 

© 描述 符 真 的 不 见 了 。 

示例 20-12 揭示 了 该 写 属 性 的 另 一 种 不 对 等 : 读 类 属性 的 操作 可 以 由 依附 在 


托管 类 上 定义 有 get_ “方法 的 描述 符 处 理 ， 但 是 写 类 属性 的 操作 不 会 由 
依附 在 托管 类 上 定义 有 _ set_ ”方法 的 描述 符 处 理 。 


~ 耕 想 控制 设置 类 属性 的 操作 ， 要 把 接 述 符 依 附 在 类 的 类 上 ， 即 依 
附 在 元 类 上 “。 黑 认 情 况 下 ， 对 用 户 定义 的 类 来 说 ， 其 元 类 是 type， 而 
我 们 不 能 为 type 添加 属性 。 不 过 在 第 21 BF, 我 们 会 自己 创建 元 类 。 


下 面 我 们 调转 话题 ， 分 析 Python 是 如 何 使 用 描述 符 实 现 方法 的 。 


20.3 方法 是 描述 符 

在 类 中 定义 的 函数 属于 绑 定 方法 (bound method) ， 因 为 用 户 定义 的 函数 都 
有 __get 方法 ， 所 以 依附 到 类 上 时 ， 就 相当 于 描述 符 。 示 例 20-13 演示 
了 从 示例 20-8 里 定义 的 Managed 类 中 读 取 spam 方法 。 


示例 20-13 方法 是 非 履 盖 型 描述 符 


>>> obj = Managed() 

>>> obj.spam @ 

<bound method Managed.spam of <descriptorkinds.Managed object at 
0x74c80c>> 


>>> Managed.spam @ 

<function Managed.spam at 0x734734> 
>>> obj.spam = 7 © 

>>> obj.spam 


@ obj . spam 获取 的 是 绑 定 方法 对 象 。 


@ (FE Managed. spam 获取 的 是 函数 。 


© 如 采 为 obj .spam 赋值 ， 会 遮盖 类 属性 ， 导 致 无 法 通过 obj 实例 访问 
spam 方法 。 


函数 没有 实现 set_ Wisk, Aleta tas, Bash] 20-13 中 的 
最 后 一 行 所 示 。 


从 示例 20-13 中 还 可 以 看 出 一 个 重要 信息 : obj .spam 和 Managed.spam 
获取 的 是 不 同 的 对 象 。 与 描述 符 一 样 ， 通 过 托管 类 访问 时 ， 画 数 的 
get 方法 会 返回 自身 的 引用 。 但 是 ， 通 过 实例 访问 上 时， 函数 的 
get 方法 返回 的 是 绑 定 方法 对 象 :一 种 可 调用 的 对 象 ， 里 面包 装着 函 
数 ， 并 把 托管 实例 (例如 obj) 绑 定 给 函数 的 第 一 个 参数 (Bl self) ， 这 
与 functools.partial 函数 的 行为 一 致 (参见 5.10.2 节 ) 


为 了 深入 理解 这 种 机 制 ， 请 看 示例 20-14。 


示例 20-14 method_is_descriptor.py: Text 类 ， 继 承 自 UserString 
类 


import collections 


class Text(collections.UserString): 


def _repr_ (self): 
return 'Text({!r})'.format(self.data) 


def reverse(self): 
return self[::-1] 


下 面 来 分 析 Text.reverse 方法 ， 如 示例 20-15 所 示 。 


示例 20-15 ”测试 一 个 方法 


>>> word = Text('forward') 

>>> word @ 

Text('forward' ) 

>>> word.reverse() @ 

Text('drawrof') 

>>> Text.reverse(Text('backward')) © 

Text('drawkcab' ) 

>>> type(Text.reverse), type(word.reverse) @ 

(<class 'function'>, <class 'method'>) 

>>> list(map(Text.reverse, ['repaid', (10, 20, 30), 
Text('stressed')])) © 

['diaper', (30, 20, 10), Text('desserts')] 

>>> Text.reverse. get (word) © 

<bound method Text.reverse of Text('forward')> 

>>> Text.reverse.__get__(None, Text) © 

<function Text.reverse at 0x101244e18> 

>>> word.reverse © 

<bound method Text.reverse of Text('forward' )> 

>>> word.reverse. self © 

Text('forward') 

>>> word.reverse.__func__ is Text.reverse @ 

True 


O Text 实例 的 repr 方法 返回 一 个 类 似 Text tie Tie ASRS, ay 
用 于 创建 相同 的 实例 。 


@ reverse 方法 返回 反 向 拼写 的 单词 。 


© 在 类 上 调用 方法 相当 于 调用 函数 。 
@ 注意 类 型 是 不 同 的 ， 一 个 是 function， 一 个 是 method ° 


© Text.reverse 相当 于 函数 ， 甚 至 可 以 处 理 Text 实例 之 外 的 其 他 对 
象 。 


O 西数 都 是 非 窗 盖 型 描述 符 。 在 画 数 上 调用 get 方法 时 传 入 实例 ， 得 
到 的 是 绑 定 到 那个 实例 上 的 方法 。 


@ 调用 函数 的 _、 get_ MER, WR instance 参数 的 值 是 None， 那 么 
得 到 的 是 函数 本 身 。 


© word.reverse 表达 式 其 实 会 调用 
Text.reverse.__get__(word), 返回 对 应 的 绑 定 方法 。 


© 绑 定 方法 对 象 有 个 self_ 属性， 其 值 是 调用 这 个 方法 的 实例 引用 。 
© 绑 定 方法 的 _ func_ ”属性 是 依附 在 托管 类 上 那个 原始 函数 的 引用 。 
绑 定 方法 对 象 还 有 个 call _ 方法 ， 用 于 人 处理 真 正 的 调用 过 程 。 这 个 方法 
SHH func 属性 引用 的 原始 函数 ， 把 函数 的 第 一 个 参数 设 为 绑 定 方法 
Ho self _ 属 性。 这 就 是 形 参 self 的 隐 式 绑 定 方式 。 
函数 会 变 成 绑 定 方法 ， 这 是 Python 语言 底层 使 用 描述 符 的 最 好 例证 。 
深入 了 解 描述 符 和 方法 的 运作 方式 之 后 ， 下 面 讨 论 用 法 方面 的 一 些 实用 建 
议 。 
20.4 描述 符 用 法 建议 
下面 根据 刚刚 论述 的 摘 述 符 特 征 给 出 一 些 实用 的 结论 。 
使 用 特性 以 保持 简单 

内 置 的 property 类 创建 的 其 实 是 覆盖 型 描述 符 ，_ set_ ”方法 和 
_get 方法 都 实现 了 ， 即 便 不 定义 设 值 方法 也 是 如 此 。 特 性 的 __set 
方法 默认 抛 出 AttributeError: can't set attribute， 因 此 创建 只 
读 属 性 最 简单 的 方式 是 使 用 特性 ， 这 能 避免 下 一 条 所 壕 的 问题 。 
只 读 描 述 符 必须 有 __set AK 


LI 


如 果 使 用 描述 符 类 实现 只 读 属性 ， get_ 和 set _ 两 个 
方法 必须 都 定义 ， 否 则 ， 实 例 的 同名 属性 会 遮盖 描述 符 。 只 读 属 性 的 


set_ ”方法 只 需 抛 出 AttributeEr oe a: 并 提供 合适 的 错误 消 
息 。6 


Python 为 此 类 异常 提供 的 错误 消息 不 一 致 。 如 果 试 图 修改 complex 的 c.real 属性 ， 那 么 得 到 的 
错误 消息 是 AttributeError: read-only attribute; 但 是 ， 如 果 试 图 修改 c.conjugat 
(e complex 对 象 的 方法 ) ， 那 么 得 到 的 错误 消息 是 AttributeError: 'complex' object 
attribute 'conjugate' is read-only ° 


用 于 验证 的 描述 符 可 以 只 有 _ set 方法 


对 仅 用 于 验证 的 描述 符 来 说 ，_ set_ ”方法 应 该 检查 value 参数 获得 
的 值 ， 如 果 有 效 ， 使 用 描述 符 实 例 的 名 称 为 键 ， 直 接 在 实例 的 、 dict_ 属 
性 中 设置 。 这 样 ， 从 实例 中 读 取 同名 属性 的 速度 很 快 ， 因 为 不 用 经 过 
”get_ 方法 处 理 。 参 见 示 例 20-1 中 的 代码 。 


仅 有 __get 方法 的 描述 符 可 以 实现 高 效 缓存 


如 有 条 只 编写 了 方法 ， 那 么 创建 的 是 非 履 凑 型 描述 符 。 这 种 描 
述 符 nT EATER RATE, RAB Be, REA 
R o ALAS PRES UT, ASV IS Be MSE dict 
属性 中 获取 值 ， 而 不 会 再 触发 摘 述 符 的 get_ 方法 。 


非特 殊 的 方法 可 以 被 实例 属性 遮盖 


由 于 函数 和 方法 只 实现 了 get_ 方法， 它们 不 会 处 理 同 名 实例 属性 
的 赋值 操作 。 因 此 ， 像 my_obj .the_method = 7 这 样 简单 赋值 之 后 ， 后 
续 通 过 该 实例 访问 the -method 得 到 的 是 但 是 不 影响 类 或 其 他 
实例 。 然 而 ， 特 殊 方法 不 受 这 个 问题 的 影响 。 解 释 器 只 会 在 类 中 寻找 特殊 的 
方法 ， 也 就 是 说 ，repr (Xx) 执行 的 其 实 
x. class . repr (x), 因此 x 的 __repr 属性 对 repr(x) 方 
法 调用 没有 影响 。 出 于 同样 的 原因 ， 实 例 的 getattr_ ”属性 不 会 破坏 常 
规 的 属性 访问 规则 © 


实例 的 非特 殊 方法 可 以 被 轻松 地 上 覆盖 ， 这 听 起 来 不 可 靠 且 容易 出 错 ， 可 有 是 在 
我 使 用 Python 的 15 年 中 从 未 受 此 困扰 。 然 而 ， 如 果 要 创建 大 量 动态 属性 ， 
属性 名 称 从 不 受 自己 控制 的 数据 中 获取 〈 像 本 章 前 面 那样 ) ， 那 么 你 应 该 知 
道 这 种 行为 ， 或 许 你 还 可 以 实现 某 种 机 制 ， 过 滤 或 转 义 动态 属性 的 名 称 ， 以 
维持 数据 的 健全 性 。 


过 | 


ae 


` 示例 19-6 中 的 FrozenJSON 类 不 会 出 现实 例 属性 遮盖 方法 的 问 
题 ， 因 为 那个 类 只 有 几 个 特殊 方法 和 一 个 build 类 方法 。 只 要 通过 类 
访问 ， 类 方法 就 是 安全 的 ， 在 示例 19-6 中 我 就 是 这 么 调用 
FrozenJSON.build 方法 的 一 一 在 示例 19-7 FRH new ”方法 
了 。Record 类 〈 见 示例 19-9 和 示例 19-11) 及 其 子 类 也 是 安全 的 ， 
为 只 用 到 了 特殊 的 方法 、 类 方法 、 静 态 方 法 和 特性 。 特 性 是 数据 描述 
符 ， 因 此 不 能 被 实例 属性 覆盖 。 


讨论 特性 时 讲 了 两 个 功能 ， 这 里 讨论 的 描述 符 还 未 涉及 ， 结 束 本 章 之 前 我 们 
来 讲 讲 : 文档 和 对 删除 托管 属性 的 处 理 。 


20.5 ”描述 符 的 文档 字符 串 和 禾 盖 删除 操作 


描述 符 类 的 文档 字符 串 用 于 注解 托管 类 中 的 各 个 描述 符 实例 。 图 20-6 中 的 截 
图 是 LineItem 类 〈 见 示例 20-7) 及 Quantity 和 NonBlank 描述 符 (JL 
示例 20-6) 的 帮助 界面 。 


提供 的 信息 有 点 不 足 。 对 LineItem 类 来 说 ， 如 果 能 说 明 weight 必须 以 
千克 为 单位 就 好 了 。 这 对 特性 来 说 是 小 菜 一 碟 ， 因 为 各 个 特性 只 处 理 特定 的 
托管 属性 。 可 是 对 描述 得 来 说 ， weight 和 price 使 用 的 都 是 Quantity 
描述 符 类 。 


“定制 各 个 描述 符 实例 的 帮助 文本 特别 难 。 有 一 种 方法 是 为 各 个 描述 符 实 例 动 态 构建 包装 类 。 


讨论 特性 时 还 讲 了 一 个 细节 ， 而 这 里 讨论 的 描述 符 没 有 涉及 ， 那 就 是 对 删除 
托管 属性 的 处 理 。 在 描述 符 类 中 ， 实 现 常规 的 、get # (或 ) __set__ 
方法 之 外 ， 可 以 实现 delete _ 方法 ， 或 者 只 实现 delete _ 方法 做 
到 这 一 点 。 时 间 充 足 的 读者 可 以 编写 一 个 没有 实际 作用 的 描述 符 类 实现 

_ delete _ 方法 ， 就 当 作 练习 。 


eoo 1. Python 
lontra:descriptors luciano$ python3 -i bulkfood_v5.py 
>>> help(LineItem.weight)f] 


809 1. less 
Help on Quantity in module model_v5 object: 


class Quantity(Validated) 
a number greater than zero 
Method {p28 1. Python 
SR rosg ‘lontra:descriptors luciano$ python3 -i bulkfood_v5S.py 
Quantity >>> help(LineItem.weight) 
Validate 
abc. ABC A 
Autostoml >>> help(LineItem)]J 
builtins eoo 1. less 
Help on class LineItem in module __main__: 
Methods defii 
class LineItem(builtins.object) 
validate(selj | Methods defined here: 


| 
1 
Data and oth l 
1 
1 


T ~-abstractme 


Methods inhel 


init__(self, description, weight, price) 


subtotal(self) 


Data descriptors defined here: 


dict__ 
dictionary for instance variables (if defined) 


—_weakref__ 
list of weak references to the object (if defined) 


1 
l 
1 
| 
l 
1 
l 
1 
| description 
7 l a string with at least one non-space character 
1 
l 
| 


price 
a number greater than zero 


图 20-6: 在 Python 控制 台中 执行 help(LineItem.weight) 和 
help(LineItem) 命令 时 的 截图 


20.6 “本章 小 结 


本 章 的 第 一 个 示例 接续 第 19 FEW LineItem 系列 示例 。 在 示例 20-1 F, R 
们 把 特性 蔡 换 成 了 描述 符 。 我 们 知道 ， 描 述 符 类 的 实例 能 用 作 托 管 类 的 属 
A 了 讨论 这 个 机 制 ， 我 们 引入 了 几 个 特殊 的 术语 ， 例 如 托管 实例 和 储存 
Es o 


在 20.1.2 市 ， 我 们 把 声明 Quantity 描述 符 所 需 的 storage_name 参数 去 
掉 了 ， 那 个 参数 多 余 且 容易 出 错 ， 因 为 实例 化 撒 述 符 时 指定 的 名 称 始 终 与 赋 
值 语 名 左边 的 属性 名 一 样 。 我 们 采用 的 方法 是 ， 结 合 描述 符 类 的 名 称 和 类 中 
的 计数 器 ， 生 成 独一无二 的 storage_name (例如 '_Quantity#1') 。 


接 下 来 ， 本 章 对 比 了 描述 符 类 与 使 用 函数 式 编程 方式 构建 的 特性 工厂 函数 ， 
分 析 了 二 者 的 代码 量 和 优 缺 点 。 有 时 后 者 更 合适 也 更 简单 ， 但 是 前 者 更 灵 
活 ， 而 且 是 标准 方案 。20.1.3 TAA TTR KA: 通过 于 类 共享 
代码 ， 构 建 具有 部 分 相同 功能 的 专用 描述 符 。 


然后 ， 我 们 分 析 了 有 或 没有 set ”方法 时 ， 描 述 符 的 行为 有 什么 不 同 ， 
了 解 了 窗 盖 型 描述 符 和 非 履 盖 型 描述 符 之 间 的 重要 差异 。 通 过 详细 的 测试 ， 
我 们 揭示 了 描述 符 何 时 接管 ， 以 及 何 时 被 避雷 、 被 跳 过 或 被覆 关 。 


本 章 随 后 分 析 了 非 履 盖 型 描述 符 的 一 种 具体 类 型 : 方法 。 通 过 控制 台中 的 测 
0 ee 经 由 描述 符 协议 的 处 理 ， 就 会 
WAEN YE ° 


最 后 ， 我 们 对 描述 符 的 用 法 给 出 了 一 些 建 议 ， 还 简要 说 明了 如 何 删 除 描述 符 
和 添加 文档 。 


这 一 章 我 们 遇 到 了 几 个 只 有 类 元 编程 能 解决 的 问题 ， 这 些 问 题 留 到 第 21 章 
解决 。 


20.7 ”延伸 阅读 


除了 语言 参考 手册 中 必 读 的 “Data model” =, Raymond Hettinger 写 
的 “Descriptor HowTo Guide” 也 值得 一 读 一 一 这 是 Python 官方 文档 HowTo € 
集中 的 一 篇 。 


对 Python 对 象 模型 相关 的 话题 来 说 ，Alex Martelli 写 的 《Python 技术 手册 

(第 2 版 ，》 一 书 虽 然 有 点 过 时 ， 但 仍然 提供 了 权威 旦 客观 的 论述 ， 本 章 讨 
论 的 关键 机 制 在 Python 2.2 中 引入 ， 远 在 那 本 书 涵 盖 的 2.5 版 之 前 。Martelli 
还 做 了 一 次 题 为 “Python's Object Model” 的 演讲 ， 深 入 探讨 了 特性 和 描述 符 [ 
幻灯 片 ， 视 频 ]， 强 烈 推 荐 观看 。 


至 于 针对 Python 3 的 实例 ，David Beazley 与 Brian K. Jones 的 《Python 
Cookbook (33 3 版 ) 中 文 版 》 一 书 中 有 很 多 说 明 描 述 符 的 诀 窜 ， 推 荐 阅读 的 
有 “6.12 读 取 肉 套 型 和 大 小 可 变 的 二 进 制 结构 ”8.10 让 属性 具有 惰性 求 值 的 能 
力 ”8.13 实现 一 种 数据 模型 或 类 型 系统 ”和 “9.9 把 装饰 妖 定 义 成 类 ”。 最 后 一 
个 诀 回 解决 了 函数 装饰 器 、 摘 述 符 和 方法 之 间 相 互 作用 的 深层 次 问题 ， 说 明 
了 如 何 使 用 有 call AEWA iat; WARE TMT IE AE 
PEMA, OREM get__ 方法 。 


self 的 问题 


“ 恋 糟 更 好 ” (“Worse is Better”) 是 Richard P. Gabriel 在 “The Rise of 
Worse is Better” 一 文中 提出 的 设计 思想 。 这 个 思想 的 第 一 要 义 是 “ 简 
>». WHE, Gabriel 说 道 : 


设计 方式 必须 简单 ， 对 实现 和 接口 来 说 都 应 如 此 。 人 简单 的 实现 比 简 
单 的 接口 更 重要 。 简 单 是 设计 过 程 中 最 重要 的 考虑 因素 。 


BUA, Python 要 求 明 确 把 方法 的 第 一 个 参数 声明 为 self 是 “ 变 粳 更 
好 ”思想 的 体现 。 这 样 ， 实 现 是 简单 了 〈 甚 至 也 优雅 了 ) ， 但 却 牺牲 了 
用 户 接口 : 方法 的 签名 一 一 例如 def zfill(self，width): 一 一 在 
外 观 上 与 pobox.zfill(8) 调用 不 匹配 。 


这 种 做 法 (以 及 使 用 self 这 个 标识 符 ) 由 Modula-3 语言 创造 ， 但 是 
与 Python 有 差异 : 在 Modula-3 中 ， 接 口 的 声明 与 实现 是 分 开 的 ， 而 且 
在 接口 声明 中 会 省 略 self 参数 ， 因 此 对 用 户 来 说 ， 接 口 声明 中 的 方法 
显示 的 参数 数量 与 真正 接受 的 参数 数量 完全 一 致 。 


在 这 方面 ，Python 有 一 项 改进 一 一 错误 消息 。 对 于 用 户 定义 的 单 参数 
(KR self 之 外 ) 方法 来 说 ， 如 果 用 户 调用 obj.meth(), Python 2.7 
会 抛 出 异常 ， 显 示 TypeError: meth() takes exactly 2 
arguments (1 given); 不 过 在 Python 3.4 中 ， 错 误 消 息 没 那么 难以 
理解 了 ， 解 决 了 参数 数量 问题 ， 还 指出 了 缺失 的 参数 : meth() 


missing 1 required positional argument: 'x' ° 


除了 要 明确 把 self 作为 参数 之 外 ， 限 制 必须 使 用 self 访问 实例 属性 
也 备 受 批评 。8 我 自己 并 不 介意 输入 self 限定 符 ， 这 样 便于 把 局 部 变 
量 和 属性 区 分 开 。 我 介意 的 是 在 def 语句 中 使 用 self。 但 是 我 已 经 习 
{iT ° 


如 果 讨 厌 Python 要 求 显 式 使 用 self， 可 以 想 想 JavaScript 中 隐 式 的 
this 那 变 幻 莫 测 的 语义 ， 这 样 感觉 束 会 好 多 了 。 像 这 样 使 用 self 有 一 
些 合 理 之 处 ，Guido 在 他 的 博客 The History of Python 中 写 了 一 篇 文章 ， 
题 为 “Adding Support for User-defined Classes”， 说 明了 这 些 原因 。 


8 例如 ，A. M. Kuchling 发 表 的 著名 文章 “Python Wart” (FF) ° Kuchling 自己 并 不 讨厌 self 限定 
符 ， 但 是 他 提 到 了 这 一 点 一 一 可 能 是 为 了 呼应 comp. lang. python 邮件 列表 中 的 观点 。 


第 21 间 ”类 元 编程 


(元 类 ) 是 深奥 的 知识 ，99% 的 用 户 都 无 需 关 注 。 如 有 果 你 想 知道 是 否 需 
要 使 用 元 类 ， 我 告诉 你 ， 不 需要 (真正 需要 使 用 元 类 的 人 确信 他 们 需 
要 ， 无 需 解释 原因 ) t 


Tim Peters 


Timsort 算法 的 发 明 者 ， 活 跃 的 Python 贡献 者 


ELL 


1 摘自 comp.lang. python MEJ PX“ Acrimony in c.1.p.” 话 题 的 回复 。 前 言 中 引述 的 那 句 话 也 是 出 自 
篇 发 布 于 2002 年 12 月 23 日 的 消息 。TimBot 在 那天 获得 了 灵感 。 


这 篇 
类 元 编程 是 指 在 运行 时 创建 或 定制 类 的 技艺 。 在 Python 中 ， 类 是 一 等 对 象 ， 
因此 任何 时 候 痢 可 以 使 用 函数 新 建 类 ， 而 无 需 使 用 class 关键 字 。 类 装饰 
不 过 能 够 审查 、 修 改 ， 甚 至 把 被 装饰 的 类 替换 成 其 他 类 。 最 
后 ， 元 类 是 类 元 编程 最 高 级 的 工具 : 使 用 元 类 可 以 创建 具有 某 种 特质 的 全 新 

类 种 ， 例 如 我 们 见 过 的 抽象 基 类 。 


o E 强 大， 但 是 难以 掌握 。 类 装饰 器 能 使 用 更 简单 的 方式 解决 很 多 问 
。 其 实 ， Python 2.6 引入 类 装饰 器 之 后 ， 元 类 很 难 使 用 真实 的 代码 说 明 ， 
因此 我 有 会 像 前 面 的 章节 那样 再 举 引 导 示 例 。 


区 别 一 一 这 是 有 效 使 用 Python 元 编程 的 重要 
基础 。 


R 
这 是 一 个 令 人 兴 理 的 话题 ， 很 容易 计 人 已 平 所 以 。 因 此 ， 进 入 本 章 的 正 
文 之 前 ， 我 必须 告诫 你 : 


除非 开发 框架 ， 否 则 不 要 编写 元 类 一 一 然而 ， 为 了 寻找 乐趣 ， 或 者 练习 
相关 的 概念 ， 可 以 这 么 做 。 


首先 ， 本 章 探讨 如 何在 运行 时 创建 类 。 
21.1 XIJ HA 


本 书 多 次 提 到 标准 库 中 的 一 个 类 工厂 函数 一 一 
collections.namedtuple。 我 们 把 一 个 类 名 和 几 个 属性 名 传 给 这 个 函 
数 ， 它 会 创建 一 个 tuple 的 子 类 ， 其 中 的 元 素 通过 名 称 获 取 ， 还 为 调试 提 
供 了 友好 的 字符 串 表 示 形 式 (repr) 。 


有 时， 我 觉得 应 该 有 类 似 的 工厂 函数， 用 于 创建 可 变 对 象 。 假 设 我 在 编写 
个 宠物 店 应 用 程序 ， 我 想 把 狗 的 数据 当 作 简单 的 记录 处 理 。 编 写 下 面 的 样板 
代码 让 人 厌烦 : 


class Dog: 
def _ init__(self, name, weight, owner): 
self.name = name 


self.weight = weight 
self.owner = owner 


无 趣 ..…... 各 个 字段 名 称 出 现 了 三 次 。 写 了 这 么 多 样板 代码 ， 甚 至 字符 串 表示 
形式 都 不 友好 : 


>>> rex = Dog('Rex', 30, 'Bob') 
>>> rex 
<__main__.Dog object at 0x2865bac> 


参考 collections.namedtuple， 下 面 我 们 创建 一 个 record_factory 
函数 ， 即 时 创建 简单 的 类 (UI Dog) 。 这 个 函数 的 用 法 如 示例 21-1。 


示例 21-1 测试 record_factory 函数 ， 一 个 简单 的 类 工厂 函数 


>>> Dog record_factory('Dog', 'name weight owner') @ 
>>> rex Dog('Rex', 30, 'Bob') 

>>> rex © 

Dog(name='Rex', weight=30, owner='Bob' ) 

>>> name, weight, _ = rex ® 

>>> name, weight 

('Rex', 30) 

>>> "{2}'s dog weighs {1}kg".format(*rex) @ 

"Bob's dog weighs 30kg" 

>>> rex.weight = 32 © 


>>> rex 
Dog(name='Rex', weight=32, owner='Bob' ) 
>>> Dog. mro_ @ 


(<class 'factories.Dog'>, <class 'object'>) 


@ 这 个 工厂 函数 的 签名 与 namedtuple Xl: 先 写 类 名 ， 后 面 跟着 写 在 一 
个 字符 串 里 的 多 个 属性 名 ， 使 用 空格 或 逗号 分 开 。 


@ 友好 的 字符 串 表 示 形 式 。 

© 实例 是 可 迭代 的 对 象 ， 因 此 赋值 时 可 以 便利 地 拆 包 。 

@ 传 给 format 等 函数 时 也 可 以 拆 包 。 

O 记录 实例 是 可 变 的 对 象 。 

O 新 建 的 类 继承 自 object， 与 我 们 的 工厂 函数 没有 关系 。 
record_factory 函数 的 代码 在 示例 21-2 中 。? 


2 感谢 我 的 朋友 J.S. Bueno 的 建议 。 


示例 21-2 record_factory.py: 一 个 简单 的 类 工厂 函数 


def record_factory(cls_name, field_names): 
try: 
field_names = field_names.replace(',', ' ').split() 
except AttributeError: # 不 能 调用 .replace 或 .split 方 法 
pass # 假定 field_names 本 就 是 标识 符 组 成 的 序列 
field_names = tuple(field_names) @ 


def _ init__(self, *args, **kwargs): © 
attrs = dict(zip(self.__slots__, args)) 
attrs.update(kwargs) 
for name, value in attrs.items(): 
setattr(self, name, value) 


__iter__(self): @ 
for name in self.__slots__: 
yield getattr(self, name) 


_repr_ (self): © 
values = ', '.join('{}={!r}'.format(*i) for i 
in zip(self.__slots__, self)) 


return '{}({})'.format(self.__class__.__ name__, values) 


field_names, © 
init_, 
iter_, 
repr__) 


cls_attrs = dict(__slots__ 
init 
iter 
repr 


return type(cls_name, (object,), cls_attrs) @ 


@ 这 里 体现 了 鸭子 类 型 : 党 试 在 逗号 或 空格 处 拆 分 field_names; 如 果 失 
败 ， 那 么 假定 Field_names 本 就 是 可 送 代 的 对 象 ， 一 个 元 素 对 应 一 个 属性 
Ko 


@ 使 用 属性 名 构建 元 组 ， 这 将 成 为 新 建 类 的 __slots__ 属性; 此 外 ， 这 人 么 
做 还 设 定 了 拆 包 和 字符 串 表 示 形 式 中 各 字段 的 顺序 。 


O 这 个 函数 将 成 为 新 建 类 的 init 方法。 参数 有 位 置 参 数 和 (或 ) 关 
键 字 参数 。 


O ZXM iter__ HRM, EREEREER: 按照 slots__ 
设 定 的 顺序 产 出 字段 值 。 


日 和 迭代 slots 和 self， 生 成 友好 的 字符 串 表示 形式 。 

@ 组 建 类 属性 字典 。 

o 调用 type 构造 方法 ， 构 建新 类 ， 人 然后 将 其 返回 。 

通常 ， 我 们 把 type 视 作 画 数 ， 因 为 我 们 像 函数 那样 使 用 它 ， 例 如 ， 调 用 
type(my_object) 获取 对 象 所 属 的 类 一 一 作用 与 


my_object. class _ 相同。 然而 ，type 是 一 个 类 。 当 成 类 使 用 时 ， 传 
入 三 个 参数 可 以 新 建 一 个 类 : 


MyClass = type('MyClass', (MySuperClass, MyMixin), 
{'x' . 


42, 'x2': lambda self: self.x * 2}) 


ype 的 三 个 参数 分 别 是 name ` bases 和 dict。 最 后 一 个 参数 是 一 个 映 


并 指定 新 类 的 属性 名 和 值 。 上 述 代码 的 作用 与 下 述 代码 相同 : 


class ee area MyMixin): 
Ye 


def x2(self): 
return self.x * 2 


让 人 觉得 新 奇 的 是 ，type 的 实例 是 类 ， 例 如 这 里 的 MyClass 类 或 示例 21- 
1 FAY Dog 类 。 


总 之 ， 示 例 21-2 中 record_factory 函数 的 最 后 一 行 会 构建 一 个 类 ， 类 的 
名 称 是 cls_name 参数 的 值 ， 唯 一 的 直接 超 类 是 object， 有 

_ slots 、 init 、 iter 和 repr_ _ 四 个 类 属性 ， 其 中 后 
三 个 是 实例 方法 。 


我 们 本 可 以 把 slots__ 类 属性 的 名 称 改 成 其 他 值 ， 不 过 要 是 那样 的 话 ， 
MXM __setattr 方法， 为 属性 赋值 时 验证 属性 的 名 称 ， 因 为 对 于 记 
录 这 样 的 类 ， 我 们 希望 属性 始终 是 固定 的 那 几 个 ， 而 且 顺 序 相同 。 然 而 9.8 
Pind, _slots_ 属性 的 主要 特色 是 节省 内 存 ， 能 处 理 数 百 万 个 实例 ， 
不 过 也 有 一 些 缺 点 。 


把 三 个 参数 传 给 type 是 动态 创建 类 的 常用 方式 。 如 果 查 看 
collections.namedtuple 函数 的 源码 ， 你 会 发 现 另 一 种 方式 : 先 声明 
一 个 _class_template 变量 ， 其 值 是 字符 串 形式 的 源码 模板 ， 然 后 在 
namedtuple 函数 中 调用 _class_template.format(...) 方法 ， 填 充 
模板 里 的 空白 ， 最 后 ， 使 用 内 置 的 exec 丽 数 计算 得 到 的 源码 字符 串 。 


on 在 Python 中 做 元 编程 时 ， 最 好 不 用 exec 和 eval Ha ° WIR 
收 的 字符 串 (或 片段 ) 来 自 不 可 信 的 源 ， 那 么 这 两 个 函数 会 带 来 严重 的 
安全 风险 。Python 提供 了 充足 的 内 省 工具 ， 大 多 数 时 候 都 不 需要 使 用 
exec 和 eval 函数 。 然 而 ，Python 核心 开发 者 实现 namedtuple 函数 
WE T (EH exec 函数 ， 这 样 做 是 为 了 让 生成 的 类 代码 能 通过 
._source 属性 获取 © 


record_ factory 函数 创建 的 类 ， 其 实例 有 个 后 不 能 序列 化 ， 即 不 

能 使 用 pickle 模块 里 的 dump/load 函数 处 理 。 这 个 示例 是 为 了 说 明 如 何 
使 用 type 类 满足 简单 的 需求 ， 因 此 不 会 解决 这 个 问题 。 如 果 想 了 解 完 整 的 
方案 ， 请 分 析 collections .nameduple 函数 的 源码 ， 搜 索 “pickling” 这 个 
词 。 


21.2 ”定制 描述 符 的 类 装饰 器 


20.1.3 市 中 的 LineItem 示例 还 有 个 问题 没有 解决 储存 属性 的 名 称 不 具有 
描述 性 ， 即 属性 (如 weight) 的 值 存储 在 名 为 _Quantity#g 的 实例 属性 
中 ， 这 样 的 名 称 有 点 不 便于 调试 。 我 们 可 以 使 用 下 述 代 码 从 示例 20-7 定义 的 
描述 符 中 获取 储存 属性 的 名 称 : 


>>> LineItem.weight.storage_name 
" Quantity#0' 


可 是 ， 如 采 储 存 属性 的 名 称 中 包含 托管 属性 的 名 称 更 好 ， 如 下 所 示 : 


>>> LineItem.weight.storage_name 
" Quantity#weight' 


20.1.2 节 说 过 ， 我 们 不 能 使 用 描述 性 的 储存 属性 名 称 ， 因 为 实例 化 描述 符 时 
无 法 得 知 托管 属性 “ 即 绑 定 到 描述 符 上 的 类 属性 ， 例 如 前 述 示例 中 的 
weight) 的 名 称 。 可 是 ,一 旦 组 建 好 整个 类 ， 而 且 把 描述 符 绑 定 到 类 属性 
上 之 后 ， 我 们 天 可 以 审查 类 ， 并 为 撒 述 符 设 置 合 理 的 储存 属性 名 称 。 
LineItem 类 的 new_ 方法 可 以 做 到 这 一 点 ， 因 此 , 在 init_ 方法 
中 使 用 描述 符 时 ， 储 存 属性 已 经 设置 了 正确 的 名 称 。 为 了 解决 这 个 问题 而 使 
用 __new ”方法 纯 属 白费 力气 : 每 次 新 建 LineItem 实例 时 都 会 运行 

_ new 方法 中 的 逻辑 ， 可 是 ， 一 旦 LineItem 类 构建 好 了 ， 描 述 符 与 托 
管 属性 之 间 的 绑 定 就 不 会 变 了 。 因 此 ， 我 们 要 在 创建 类 时 设置 储存 属性 的 名 
称 。 使 用 类 装饰 器 或 元 类 可 以 做 到 这 一 点 。 我 们 首先 使 用 较 简 单 的 方式 。 


Rite Sj HBC MARRY, LERARTRN WAL, WERK REY 
修改 后 的 类 。 


在 示例 21-3 中 ， 解 释 器 会 计算 LineItem 类 ， 把 返回 的 类 对 象 传 给 
model.entity 函数 。Python 会 把 LineItem 这 个 全 局 名 称 绑 定 给 
model.entity 函数 返回 的 对 象 。 在 这 个 示例 中 ，model.entity HAS 
返回 原先 的 LineItem 类 ， 但 是 会 修改 各 个 描述 行 实例 的 storage_name 
属性 。 


示例 21-3 bulkfood_v6.py: 使 用 Quantity 和 NonBlank 描述 符 的 
LineItem 类 


import model_v6 as model 


@model.entity @ 

class LineItem: 
description = model.NonBlank( ) 
weight = model.Quantity() 
price = model.Quantity() 


def _ init__(self, description, weight, price): 
self.description = description 


self.weight = weight 
self.price = price 


subtotal(self): 
return self.weight * self.price 


@ 这 个 类 唯一 的 变化 是 添加 了 疼 师 右 。 


示例 21-4 是 那个 装饰 器 的 实现 。 这 里 只 列 出 了 model_v6.py 脚本 底部 添加 的 
新 代码 ， 其 余 的 代码 与 model_v5.py 脚本 ( 见 示例 20-6) 一 样 。 


示例 21-4 model_v6.py: 一 个 类 装饰 器 


def entity(cls): @ 
for key, attr in cls.__dict__.items(): © 
if isinstance(attr, Validated): © 


type_name = type(attr).__name__ 
attr.storage_name = '_{}#{}'.format(type_name, key) @ 
return cls © 


@ 效 饰 絮 的 参数 是 一 个 类 。 

@ 迭代 存储 类 属性 的 字典 。 

© 如 果 属 性 是 Validated 描述 符 的 实例 .……. 

@ 使 用 描述 符 类 的 名 称 和 托管 属性 的 名 称 命名 storage_name (例如 


_NonBlank#description) 。 
日 返回 修改 后 的 类 。 


bulkfood_v6.py 脚本 中 的 doctest 证 明 ， 改 动 是 成 功 的。 例如 ， 示 例 21-5 展示 
了 一 个 LineItem 实例 中 的 储存 属性 名 称 。 


示例 21-5 bulkfood_v6.py: 描述 符 中 新 storage_name 属性 的 doctest 


>>> raisins = LineItem('Golden raisins', 10, 6.95) 

>>> dir(raisins)[:3] 

['_NonBlank#description', '_Quantity#price', '_Quantity#weight' ] 
>>> LineItem.description.storage_name 


"_NonBlank#description' 

>>> raisins.description 

"Golden raisins' 

>>> getattr(raisins, '_NonBlank#description' ) 
"Golden raisins' 


可 以 看 出 ， 这 并 不 复杂 。 类 装饰 右 能 以 较 简 单 的 方式 做 到 以 前 需要 使 用 元 类 
去 做 的 事情 一 一 创建 类 时 定制 类 。 


类 装饰 器 有 个 重大 缺点 : 只 对 直接 依附 的 类 有 效 。 这 意味 着 ， 被 闭 饰 的 类 的 
BE 不 继承 小 饰 右 所 做 的 改动 ， 具 体 情况 视 改 动 的 方式 而 
° 接 下 来 的 几 节 会 探讨 这 个 问题 ， 并 给 出 解决 方案 。 


21.3 ”导入 时 和 运行 时 比较 


为 了 正确 地 做 元 编程 ， 你 必须 知道 Python 解释 器 什么 时 候 计 算 各 个 代码 块 。 
Python 程序 员 会 区 分 “导入 时 ”和 “运行 时 ”， 不 过 这 两 个 术语 没有 严格 的 定 

义 ， 而 且 二 者 之 间 存 在 着 灰色 地 带 。 在 导入 时 ， 解 释 器 会 从 上 到 下 一 次 性 解 
析 完 .py 模块 的 源码 ， 然 后 生成 用 于 执行 的 字 节 码 。 如 采 句 法 有 错误 ， 束 在 
此 时 报告 。 如 果 本 地 的 __pycache__ 文件 夹 中 有 最 新 的 .pyc 文件 ， 解 释 器 
会 跳 过 上 述 步 又 ， 因 为 已 经 有 运行 所 需 的 字 节 码 了 。 


编译 肯定 是 导入 时 的 活动 ， 不 过 那个 时 期 还 会 做 些 其 他 事 ， 因 为 Python 中 的 
语句 几乎 都 是 可 执行 的 ， 也 就 是 说 语句 可 能 会 运行 用 户 代码 ， 修 改 用 户 程序 
的 状态 。 尤 其 是 import 语句 ， 它 不 只 是 声明 3， 在 进程 中 首次 导入 模块 
时 ， 还 会 运行 所 导入 模块 中 的 全 部 顶层 代码 一 一 以 后 导入 相同 的 模块 则 使 用 
缓存 ， 只 做 名 称 绑 定 。 那 些 顶 层 代 码 可 以 做 任何 事 ， 包 括 通 常 在 < 运行 时 ”做 
的 事 ， 例 如 连接 数据 库 。4 因此 ,“ 导 入 时 "与 “运行 时 "之 间 的 界线 是 模糊 
的 : import 语句 可 以 触发 任何 “运行 时 ”行为 。 


Java 中 的 import 语句 则 只 是 声明 ， 用 于 告知 编译 器 需要 特定 的 包 。 


4 我 不 是 说 导入 模块 时 应 该 连接 数据 库 ， 只 是 指出 来 可 以 做 到 。 


在 前 一 段 中 我 写 道 ， 导 入 时 会 < 运行 全 部 顶层 代码 ”， 但 是 “顶层 代码 ”会 经 过 
一 些 加 工 。 导 入 模块 时 ， 解 释 器 会 执行 顶层 的 def 语句 ， 可 是 这 么 做 有 什么 
作用 呢 ? RAR as A JTE EX 数 的 定义 体 (站 次 导入 模块 时 ) ARE ONT eae 
到 对 应 的 全 局 名 称 上 ， 但 是 显然 解释 恬 不 会 执行 函数 的 定义 体 。 通 肖 这 意味 
着 解释 器 在 导入 时 定义 顶层 画 数 ， 但 是 仅 当 在 运行 时 调用 范 数 时 才 会 执行 本 
数 的 定义 体 。 

对 类 来 说 ， 情 况 束 不 同 了 :在 导入 了 时， 解释 器 会 执行 每 个 类 的 定义 体 ， 甚 至 
会 执行 嵌 套 类 的 定义 体 。 执 行 类 定义 体 的 结果 是 ， 定 义 了 类 的 属性 和 方法 ， 
并 构建 了 类 对 象 。 从 这 个 意义 上 理解 ， 类 的 定义 体 属 于 “顶层 代码 ”， 因 为 它 
在 导入 时 运行 。 

上 述说 明 模 糊 又 抽象 ， 下 面 通过 练习 理解 各 个 时 期 所 做 的 事情 。 


理解 计算 时 间 的 练习 


L 


假设 在 evaltime.py 脚本 中 导入 了 evalsupport.py 模块 。 这 两 个 模块 调用 了 几 
次 print War, TEN <[N]> 格式 的 标记 ， 其 中 N 是 数字 。 下 述 两 个 练习 的 
目标 是 ， 确 定 各 个 调用 在 何 时 执行 。 


和 据 我 的 学 生 说 ， 这 两 个 练习 有 助 于 更 好 地 理解 Python 计算 源码 的 
HA 。 在 查看 场景 1 的 解答 之 前 ， 请 一 定 要 拿 出 纸 和 笔 ， 花 点 时 间作 


那 两 个 模块 的 代码 在 示例 21-6 和 示例 21-7 中 。 先 别 运行 代码 ， 拿 出 纸 和 
笔 ， 按 顺序 写 出 下 述 两 个 场景 输出 的 标记 。 


场景 1 

在 Python 控制 台中 以 交互 的 方式 导入 evaltime.py 模块 : 
[>> import evaltime | 
场景 2 

在 命令 行 中 运行 evaltime.py 模块 : 


示例 21-6 evaltime.py: 按 顺序 写 出 输出 的 序号 标记 <[N]> 


from evalsupport import deco_alpha 


print('<[1]> evaltime module start') 


class ClassOne(): 
print('<[2]> ClassOne body') 


def __ init__(self): 
print('<[3]> ClassOne.__init__') 


def _ del (self): 
print('<[4]> ClassOne.__del__') 


def method_x(self): 
print('<[5]> ClassOne.method_x') 


class ClassTwo(object): 
print('<[6]> ClassTwo body') 


@deco_alpha 
class ClassThree(): 
print('<[7]> ClassThree body') 


def method_y(self): 
print('<[8]> ClassThree.method_y' ) 


class ClassFour(ClassThree): 
print('<[9]> ClassFour body') 


def method_y(self): 
print('<[10]> ClassFour.method_y' ) 


if _name__ == '__main_': 
print('<[11]> ClassOne tests', 30 * '.') 
one = ClassOne() 
one.method_x() 
print('<[12]> ClassThree tests', 30 * '.') 
three = ClassThree() 
three.method_y() 
print('<[13]> ClassFour tests', 30 * '.') 
four = ClassFour() 
four.method_y() 


print('<[14]> evaltime module end' ) 


示例 21-7 evalsupport.py: evaltime.py 导入 的 模块 


print('<[100]> evalsupport module start') 


def deco_alpha(cls): 
print('<[200]> deco_alpha' ) 


def inner_1(self): 
print('<[300]> deco_alpha:inner_1') 


cls.method_y = inner_1 
return cls 


class MetaAleph(type): 
print('<[400]> MetaAleph body ) 


def _init__(cls, name, bases, dic): 
print('<[500]> MetaAleph.__init__') 


def inner_2(self): 
print('<[600]> MetaAleph.__init__:inner_2') 


cls.method_z = inner_2 


print('<[700]> evalsupport module end ' ) 


01. 场景 1 的 解答 


TE Python 控制 台中 导入 evaltime.py 模块 后 得 到 的 输出 如 示例 21-8 所 
ZK e 


示例 21-8 场景 1: 在 Python 控制 台中 导入 evaltime 模块 


>>> import evaltime 

<[100]> evalsupport module start @ 
<[400]> MetaAleph body @ 
<[700]> evalsupport module end 
<[1]> evaltime module start 
<[2]> ClassOne body © 

<[6]> ClassTwo body @ 

<[7]> ClassThree body 

<[200]> deco_alpha © 

<[9]> ClassFour body 

<[14]> evaltime module end © 


@ evalsupport 模块 中 的 所 有 顶层 代码 在 导入 模块 时 和 运行， 解释 器 会 
编译 deco_alpha 函数 ， 但 是 不 会 执行 定义 体 。 


@ MetaAleph 类 的 定义 体 运 行 了 。 

© 每 个 类 的 定义 体 都 执行 了 .……… 

O .……. 包 括 舱 套 的 类 。 

O 先 计 算 被 装饰 的 类 ClassThree 的 定义 体 ， 然 后 运行 装饰 器 函数 。 


O 在 这 个 场景 中 ，evaltime 模块 是 导入 的 ， 因 此 不 会 运行 if 
__name__ == '_ main __':#e 


对 于 场景 1， 要 注意 以 下 几 点 。 
(1) 这 个 场景 由 简单 的 import evaltime 语句 触发 。 


(2) 解释 器 会 执行 所 导入 模块 及 其 依赖 (evalsupport) 中 的 每 个 类 定 
义 体 。 


02. 


(3) 解释 器 先 计 算 类 的 定义 体 ， 然 后 调用 依附 在 类 上 的 狠 饰 器 钞 数 ， 这 
征 合 理 的 行为 ， 因 为 必须 先 构建 类 对 象 ， 装 饰 器 才 有 类 对 象 可 处 理 。 


(4) 在 这 个 场景 中 ， 只 运行 了 一 个 用 户 定义 的 函数 或 方法 一 一 


deco_alpha 装饰 器 。 
下 面 来 看 场景 © 
场景 2 的 解答 


运行 python3 evaltime ,py 命令 后 得 到 的 输出 如 示例 21-9 所 示 。 


示例 21-9 场景 2， 在 shell 中 运行 evaltime.py 


$ python3 evaltime.py 

<[100]> evalsupport module start 
<[400]> MetaAleph body 

<[700]> evalsupport module end 
<[1]> evaltime module start 
<[2]> ClassOne body 

<[6]> ClassTwo body 

<[7]> ClassThree body 

<[200]> deco_alpha 

<[9]> ClassFour body @ 

<[11]> ClassOne tests 

<[3]> ClassOne.__init__ @ 
<[5]> ClassOne.method_x 

<[12]> ClassThree tests 
<[300]> deco_alpha:inner_1 © 
<[13]> ClassFour tests 

<[10]> ClassFour.method_y 
<[14]> evaltime module end 
<[4]> ClassOne._del__ @ 


@ ABIL, 输出 与 示例 21-8 相同 。 
@ 类 的 标准 行为 。 


© deco_alpha 装饰 器 修改 了 ClassThree.method_y 方法 ， 因 此 调 
用 three.method_y() 时 会 运行 inner_1 函数 的 定义 体 。 


只 有 程序 结束 时 ， 绑 定 在 全 局 变量 one 上 的 ClassOne 实例 才 会 被 
垃圾 回收 程序 回收 。 


场景 2 主要 想 说 明 的 是 ， 类 装饰 器 可 能 对 子 类 没有 影响 。 在 示例 21-6 
中 ， 我 们 把 ClassFour 定义 为 ClassThree 的 子 类 。ClassThree 
类 上 依附 的 @deco_alpha 装饰 器 把 method_y 方法 替换 掉 了 ， 但 是 
这 对 ClassFour 类 根本 没有 影响 。 当 然 ， 如 果 

ClassFour .method_y 方法 使 用 super(...) 调用 
ClassThree.method_y 方法 ， 我 们 便 会 看 到 装饰 器 起 作用 ， 执 行 
inner_1 WRX ° 


与 此 不 同 的 是 ， 如 果 想 定制 整个 类 层次 结构 ， 而 不 是 一 次 只 定制 一 个 
类 ， 使 用 下 一 市 介绍 的 元 类 更 高 效 。 


21.4 ”元 类 基础 知识 


元 类 是 制造 类 的 工厂 ， 不 过 不 是 函数 (如 示例 21-2 中 的 
record_factory) ， 而 是 类 。 图 21-1 使 用 机 器 和 小 怪兽 图 示 法 描述 元 
类 ， 可 以 看 出 ， 元 类 是 生产 机 器 的 机 器 。 


Niis & 
Gizmos 
Notation 


图 21-1: 元 类 是 用 于 构建 类 的 类 

根据 Python 对 象 模型 ， 类 是 对 象 ， 因 此 类 肯定 是 另外 某 个 类 的 实例 。 默 认 情 
况 下 ，Python 中 的 类 是 type 类 的 实例 。 也 就 是 说 ，type 是 大 多 数 内 置 的 
类 和 用 户 定义 的 类 的 元 类 : 


>>> 'spam'.__class__ 

<class 'str'> 

>>> str.__class__ 

<class 'type'> 

>>> from bulkfood_v6 import LineItem 


>>> LineItem._class__ 
<class 'type'> 

>>> type. class _ 
<class 'type'> 


WY YER CER HH, type 是 其 目 身 的 实例 ， 如 最 后 一 行 所 示 。 
注意 ， 我 没有 说 str 或 LineItem 继承 自 type。 我 的 意思 是 ，str 和 
LineItem 是 type 的 实例 。 这 两 个 类 是 object WFR ° Al 21-2 可 能 有 


助 于 你 理 清 这 个 奇怪 的 现象 。 
«metaclass» 


/ | \ 
«instance of» / I \ «instance of» 
1 
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«metaclass» 
type 


/ \ 
r N 
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图 21-2: 两 个 示意 图 都 是 正确 的 。 左 边 的 示意 图 强调 str ` type 和 
LineItem Æ object 的 子 类 。 和 右边 的 示意 图 则 清楚 地 表明 str、object 
和 LineItem 是 type 的 实例 ， 因 为 它们 都 是 类 


` object 类 和 type 类 之 间 的 关系 很 独特 : object 是 type 的 实 
fil, m type = object 的 子 类 。 这 种 关系 很 “神奇 "， 无 法 使 用 Python 
代码 表述 ， 因 为 定义 其 中 一 个 之 前 另 一 个 必须 存在 。type 是 自身 的 实 
例 这 一 点 也 很 神奇 。 


除了 type， 标 准 库 中 还 有 一 些 别 的 元 类 ， 例 如 ABCMeta 和 Enum。 如 下 述 
代码 片段 所 示 ，collections.Iterable 所 属 的 类 是 abc.ABCMeta。 
Iterable 是 抽象 类 ， 而 ABCMeta 不 是 一 不管 怎样 ，Iterable 是 
ABCMeta 的 实例 : 


>>> import collections 

>>> collections.Iterable._class__ 
<class 'abc.ABCMeta'> 

>>> import abc 

>>> abc.ABCMeta.__class__ 


<class 'type'> 
>>> abc.ABCMeta.__mro__ 
(<class 'abc.ABCMeta'>, <class 'type'>, <class 'object'>) 


H EEX, ABCMeta 最 终 所 属 的 类 也 是 type。 所 有 类 都 直接 或 间接 地 是 
type 的 实例 ， 不 过 只 有 元 类 同时 也 是 type 的 子 类 。 阁 想 理解 元 类 ， 一 定 
要 知道 这 种 关系 : 元 类 (如 ABCMeta) M type 类 继承 了 构建 类 的 能 
21-3 对 这 种 至 天 重要 的 关系 做 了 图 解 。 


«metaclass» 
type 
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图 21-3: Iterable Æ object WFR, Æ ABCMeta 的 实例 。object 和 
ABCMeta 都 是 type 的 实例 ， 但 是 这 里 的 重要 关系 是 ，ABCMeta 还 是 
type 的 子 类 ， 因 为 ABCMeta 是 元 类 。 示 意图 中 只 有 Iterable 是 抽象 类 


我 们 要 抓 住 的 重点 是 ， 所 有 类 都 是 type 的 实例 ， 但 是 元 类 还 是 type 的 子 

类 ， 因 此 可 以 作为 制造 类 的 工 广 。 具 体 来 说 ， 元 类 可 以 通过 实现 init 
方法 定制 实例 。 元 类 的 __init__ 方法 可 以 做 到 类 装饰 器 能 做 的 任何 事情 ， 

但 是 作用 更 大 ， 如 接 下 来 的 练习 所 示 。 


理解 元 类 计算 时 间 的 练习 


我 们 对 21.3 节 的 练习 做 些 改 动 ，evalsupport.py 模块 与 示例 21-7 一 样 ， 不 过 
现在 主 脚 本 变 成 evaltime_meta.py 了 ， 如 示例 21-10 所 示 。 


示例 21-10 evaltime_meta.py: ClassFive 是 MetaAleph 元 类 的 实例 


from evalsupport import deco_alpha 
from evalsupport import MetaAleph 


print('<[1]> evaltime_meta module start') 


@deco_alpha 
class ClassThree(): 
print('<[2]> ClassThree body') 


def method_y(self): 
print('<[3]> ClassThree.method_y' ) 


class ClassFour(ClassThree): 
print('<[4]> ClassFour body') 


def method_y(self): 
print('<[5]> ClassFour.method_y' ) 


class ClassFive(metaclass=MetaAleph) : 
print('<[6]> ClassFive body') 


def _init_ (self): 
print('<[7]> ClassFive.__init__') 


def method_z(self): 
print('<[8]> ClassFive.method_z') 


class ClassSix(ClassFive): 
print('<[9]> ClassSix body') 


def method_z(self): 
print('<[10]> ClassSix.method_z') 


if _name__ == '_main_': 
print('<[11]> ClassThree tests', 30 * '.') 
three = ClassThree() 
three.method_y() 
print('<[12]> ClassFour tests', 30 * '.') 
four = ClassFour() 
four.method_y() 
print('<[13]> ClassFive tests', 30 * '.') 
five = ClassFive() 
five.method_z() 


print('<[14]> ClassSix tests', 30 * '.') 
six = ClassSix() 
six.method_z() 


print('<[15]> evaltime_meta module end') 


同样 ， 请 拿 出 纸 和 笔 ， 按 顺序 写 出 下 述 两 个 场景 中 输出 的 序号 标记 <[N]>。 
场景 3 
在 Python 控制 台中 以 交互 的 方式 导入 evaltime_meta.py 模块 。 
场景 4 
在 命令 行 中 运行 evaltime_meta.py 模块 。 
解答 和 分 析 如 下 。 
01. 场景 3 的 解答 


在 Python 控制 台中 导入 evaltime_meta.py 模块 后 得 到 的 输出 如 示例 21- 
11 所 示 。 


示例 21-11 场景 3， 在 Python 控制 台中 导入 evaltime_meta 模 
块 


>>> import evaltime_meta 

<[100]> evalsupport module start 
<[400]> MetaAleph body 

<[700]> evalsupport module end 
<[1]> evaltime_meta module start 
<[2]> ClassThree body 

<[200]> deco_alpha 


<[4]> ClassFour body 

<[6]> ClassFive body 

<[500]> MetaAleph.__init_ @ 
<[9]> ClassSix body 

<[500]> MetaAleph.__init_ @ 
<[15]> evaltime_meta module end 


@ 与 场景 1 的 关键 区 别 是 ， 创 建 ClassFive 时 调用 了 
MetaAleph. init 方法。 


@ 创建 ClassFive 的 子 类 ClassSix 时 也 调用 了 
MetaAleph.__init__ 方法 。 


Python 解释 器 计算 ClassFive 类 的 定义 体 时 没有 调用 type 构建 具体 
的 类 定义 体 ， 而 是 调用 MetaAleph 类 。 看 一 下 示例 21-12 中 定义 的 
MetaAleph 类 ， 你 会 发 现 _ init__ 方法 有 四 个 参数 。 

self 


这 是 要 初始 化 的 类 对 象 (例如 ClassFive) 。 


name ` bases ` dic 
与 构建 类 时 传 给 type 的 参数 一 样 。 


示例 21-12 evalsupport.py: 定义 MetaAleph 元 类 ， 搞 自 示 例 21- 
7 


class MetaAleph(type): 
print('<[400]> MetaAleph body') 


def _ init (cls, name, bases, dic): 
print('<[500]> MetaAleph.__init__') 


def inner_2(self): 
print('<[600]> MetaAleph.__init__:inner_2') 


cls.method_z = inner_2 


` 编写 元 类 时 ， 通 常会 把 self 参数 改 成 cLs。 例 如 ， 在 上 述 

元 类 的 __init__ 方法 中 ， 把 第 一 个 参数 命名 为 cls 能 清楚 地 表 

明 要 构建 的 实例 是 类 。 
init _ 方法 的 定义 体 中 定义 了 inner_2 函数 ， 然 后 将 其 绑 定 给 
cls.method_z ° MetaAleph. init _ 方法 签名 中 的 cls 指 代 要 
创建 的 类 (例如 ClassFive) 。 而 inner_2 画 数 签名 中 的 self 最 终 
是 指 代 我 们 在 创建 的 类 的 实例 (例如 ClassFive 类 的 实例 ) 。 


02. 场景 4 的 解答 


在 命令 行 中 运行 python3 evaltime_meta.py 命令 后 得 到 的 输出 如 
示例 21-13 所 示 。 


示例 21-13 场景 4 在 shell 中 运行 evaltime_meta.py 


$ python3 evaltime. py 

<[100]> evalsupport module start 
<[400]> MetaAleph body 

<[700]> evalsupport module end 
<[1]> evaltime_meta module start 
<[2]> ClassThree body 

<[200]> deco_alpha 

<[4]> ClassFour body 

<[6]> ClassFive body 

<[500]> MetaAleph.__init__ 
<[9]> ClassSix body 

<[500]> MetaAleph.__init__ 
<[11]> ClassThree tests 

<[300]> deco_alpha:inner_1 @ 
<[12]> ClassFour tests 

<[5]> ClassFour.method_y @ 
<[13]> ClassFive tests 

<[7]> ClassFive._init__ 
<[600]> MetaAleph.__init__:inner_2 © 
<[14]> ClassSix tests 

<[7]> ClassFive._init__ 
<[600]> MetaAleph.__init__:inner_2 @ 
<[15]> evaltime_meta module end 


@ 装饰 器 依附 到 ClassThree 类 上 之 后 ，method_y 方法 被 替换 成 
inner_1 方 法 ...... 


Ə 虽然 ClassFour 是 ClassThree 的 子 类 ， 但 是 没有 依附 装饰 器 的 
ClassFour 类 却 不 受 影响 。 


© MetaAleph 类 的 __init__ 方法 把 ClassFive.method_z 方 法 
#8 PRA inner_2 函数 。 


@ ClassFive 的 子 类 ClassSix 也 是 一 样 ，method_z HiME 
inner_2 RX 。 


注意 ，ClassSix 类 没有 直接 引用 MetaAleph 类 ， 但 是 却 受到 了 影 
I, AE ClassFive 的 子 类 ， 进 而 也 是 MetaAleph 类 的 实例 ， 
所 以 由 MetaAleph,__ init_ _ 方法 初始 化 。 


本 如 果 想 进一步 定制 类 ， 可 以 在 元 类 中 实现 “new_ 方法 。 不 
过 ， 通 常情 况 下 实现 __init_ 方法 就 够 了 。 


现在 ， 我 们 可 以 实践 这 些 理 论 了 。 我 们 将 创建 一 个 元 类 ， 让 描述 符 以 最 
佳 的 方式 目 动 创建 储存 属性 的 名 称 。 


21.5 ”定制 描述 符 的 元 类 


回 到 LineItem 系列 示例 。 如 采用 户 完 全 不 用 知道 描述 符 或 元 类 ， 直 接 继承 
库 提供 的 类 就 能 满足 需求 ， 那 该 多 好 。 如 示例 21-14 所 示 。 


示例 21-14 bulkfood_v7.py: 有 元 类 的 文 持 ， 继 承 model.Entity 类 
即 可 


import model_v7 as model 


class LineItem(model.Entity): @ 
description = model.NonBlank( ) 
weight = model.Quantity() 
price = model.Quantity() 


def _ init__(self, description, weight, price): 
self.description = description 
self.weight = weight 
self.price = price 


def subtotal(self): 
return self.weight * self.price 


@ LineItem Æ model.Entity 的 子 类 。 


示例 21-14 理解 起 来 相当 容易 ， 毕 葛根 本 没有 奇怪 的 句法 。 可 是 ， 
model_v7.py 模块 必须 定义 一 个 元 类 ， 而 且 model.Entity 类 是 那个 元 类 的 
实例 。model_v7.py 模块 中 实现 的 Entity 类 如 示例 21-15 所 示 。 


示例 21-15 model_v7.py: EntityMeta 元 类 以 及 它 的 一 个 实例 
Entity 


class oe ee 


"" "元 类 ， 用 于 创建 带 有 验证 字段 的 业务 实体 """ 


def _init__(cls, name, bases, attr_dict): 
super().__init__(name, bases, attr_dict) @ 
for key, attr in attr_dict.items(): @ 
if isinstance(attr, Validated): 
type_name = type(attr).__name__ 
attr.storage_name = '_{}#{}'.format(type_name, key) 


class Entity(metaclass=EntityMeta): © 
Wenn ey US ESE Ex AY MY SS SE 


@ 在 超 类 〈 在 这 里 是 type) 上 调用 _ init_ 方法。 
@ 与 示例 21-4 中 @entity 装饰 器 的 逻辑 一 样 。 


© 这 个 类 的 存在 只 是 为 了 用 起 来 便利 ， 这 个 模块 的 用 户 直 接 继承 Entity 类 
即 可 ， 无 需 关 心 EntityMeta 元 类 ， 其 至 不 用 知道 它 的 存在 。 


示例 21-14 中 的 代码 能 通过 示例 21-3 中 的 测试 。 辅 助 模块 model_v7.py HE 
model_v6.py 难 理解 ， 但 是 用 户 级 别 的 代码 更 简单 : 只 需 继承 
model_v7.Entity 类 ，Validated 字段 就 能 上 自动 获得 储存 属性 的 名 称 。 


21-4 使 用 简单 的 图 示 说 明了 我 们 刚刚 实现 的 逻辑 。 虽 然 有 很 多 复杂 的 逻 
辑 ， 但 都 隐藏 在 model_v7 模块 中 。 从 用 户 的 角度 来 看 ， 示 例 21-14 中 的 
LineItem 只 是 Entity 的 子 类 。 这 就 是 抽象 的 作用 。 


UNIFIED ~> A Mills & 
MODELING G Gizmos 
LANGUAGE Mi. Notation 

description a= 
_Quantity#weight 
_Quantity#price T= 


图 21-4: 使 用 机 器 和 小 怪兽 图 示 法 (MGN) 注解 的 UML 类 图 。 
EntityMeta 元 机 器 用 于 生产 LineItem 机 器 。 描 述 符 (如 weight 和 
price) 由 EntityMeta. init _ 方法 配置 。 注 意 model_v7 模块 的 边 
界 


除了 把 类 链接 到 元 类 上 的 句法 之 外 ”， 目 前 编写 元 类 使 用 的 句法 在 Python 2.2 
(这 个 版 本 对 Python 类 型 做 了 重大 改造 ) 之 后 部 能 使 用 。 下 一 市 介绍 一 个 只 
能 在 Python 3 中 使 用 的 功能 。 


511.7.1 节 说 过 ，Python 2.7 使 用 的 是 metaclass_ ”类 属性 ， 类 的 声明 体 不 支持 metaclass= 关 
键 字 参数 。 


21.6 ”元 类 的 特殊 方法 prepare__- 


在 某 些 应 用 中 ， 可 能 需要 知道 类 的 属性 定义 的 顺序 。 例 如 ， 对 读 写 CSV 文 
件 的 库 来 说 ， 用 户 定 义 的 类 可 能 想 把 类 中 按 顺序 声明 的 字段 与 CSV 文件 中 
各 列 的 顺序 对 应 起 来 。 


如 前 所 述 ，type 构造 方法 及 元 类 的 _new__ 和 init _ 方法 都 会 收 到 
要 计算 的 类 的 定义 体 ， 形 式 是 名 称 到 属性 的 映像 。 然 而 在 默认 情况 下 ， 那 个 
映射 是 字典 ， 也 就 是 说 ， 元 类 或 类 装饰 器 获得 映射 时 ， 属 性 在 类 定义 体 中 的 
顺序 已 经 丢失 了 。 


这 个 问题 的 解决 办 法 是 ， 使 用 Python 3 引入 的 特殊 方法 __prepare 。 这 
个 特殊 方法 只 在 元 类 中 有 用 ， 而 且 必 须 声明 为 类 方法 (B, ZEH 
@classmethod 装饰 器 定义 ) 。 解 释 器 调用 元 类 的 __new__ 方法 之 前 会 先 
HH prepare _ 方法 ， 使 用 类 定义 体 中 的 属性 创建 映射 。 

_ prepare ”方法 的 第 一 个 参数 是 元 类 ， 随 后 两 个 参数 分 别 是 要 构建 的 类 
的 名 称 和 基 类 组 成 的 元 组 ， 返 回 值 必须 是 映射 。 元 类 构建 新 类 时 ， 

_ prepare ”方法 返回 的 映射 会 传 给 __new_ ”方法 的 最 后 一 个 参数 ， 然 
后 再 传 给 ”init ”方法 。 


理论 听 起 来 很 复杂 ， 但 是 我 见 过 的 __prepare__ 方法 都 十 分 简单 。 请 看 示 
例 21-16 。 


示例 21-16 model_v8.py: 这 一 版 EntityMeta 元 类 用 到 了 
__prepare__ Wit, MAW Entity 类 定义 了 field_names 类 方法 


class EntityMeta(type): 


"元 类 ， 用 于 创建 带 有 验证 字段 的 业务 实体 """ 


@classmethod 
def _ prepare_ (cls, name, bases): 
return collections.OrderedDict() @ 


def _init__(cls, name, bases, attr_dict): 
super().__init__(name, bases, attr_dict) 
cls._field_names = [] © 
for key, attr in attr_dict.items(): © 
if isinstance(attr, Validated): 
type_name = type(attr).__name__ 
attr.storage_name = '_{}#{}'.format(type_name, key) 


cls._field_names.append(key) ©@ 


eras. Entity(metaclass= BOCI NEEE Ji 
RA STE BCH WE SER 


@classmethod 
def field_names(cls): © 
for name in cls._field_names: 
yield name 


@ 返回 一 个 空 的 OrderedDict 实例 ， 类 属性 将 存储 在 里 面 ° 


@ 在 要 构建 的 类 中 创建 一 个 _field_names 属性 


一 行 与 前 一 版 相 比 没有 变化 ， 不 过 这 里 的 attr_dict 十 那个 
OrderedDict 对 象 ， 由 解释 器 在 调用 __init__ 方法 之 前 调用 
_ prepare _ 方法 时 获得 。 因 此 ， 这 个 For 循环 会 按照 添加 属性 的 顺序 迭 
代 属 性 


O 把 找到 的 各 个 Validated 字段 添加 到 field_names 属性 中 。 


© field_names 类 方法 的 作用 简单 :按照 添加 字段 的 顺序 产 出 字段 的 名 
称 。 
像 示 例 21-16 那样 添加 一 些 简 单 的 代码 之 后 ， 我 们 可 以 使 用 field_names 


类 方法 迭代 任何 Entity FRAY validated 字段 。 示 例 21-17 演示 了 这 个 
新 功能 。 


示例 21-17 bulkfood_v8.py: 展示 field_names 用 法 的 doctest 一 一 无 
需 修 改 LineItem 类 ，field_names 方法 继承 自 model.Entity 类 


>>> for name in LineItem.field_names(): 
print(name) 


description 
weight 
price 


对 元 类 的 介绍 到 此 结束 。 在 现实 世界 中 ， 框 架 和 库 会 使 用 元 类 协助 程序 员 执 
行 很 多 任务 ， 例 如 : 


。 验证 属性 


一 次 把 装饰 器 依附 到 多 个 方法 上 
序列 化 对 象 或 转换 数据 

对 象 关系 映射 

基于 对 象 的 持久 存储 

动态 转换 使 用 其 他 语言 编写 的 类 结构 

下 一 节 将 概述 Python 数据 模型 为 所 有 类 定义 的 方法 。 

21.7 ”类 作为 对 象 

python 数据 模型 为 每 个 类 定义 了 很 多 属性 ， 参 见 标准 库 参考 中 “Built-in 


Types” 一 章 的 “4.13. Special Attributes” 一 节 。 其 中 三 个 属性 在 本 书 中 已经 见 过 
多 次 :_ mro _、 class 和 name 。 此 外 ， 还 有 以 下 属性 。 


cls. bases _ 
由 类 的 基 类 组 成 的 元 组 。 
cls.__qualname__ 


Python 3.3 新 引入 的 属性 ， 其 值 是 类 或 函数 的 限定 名 称 ， 即 从 模块 的 全 
局 作用 域 到 类 的 点 分 路 径 。 例 如 ， 在 示例 21-6 中 ， 内 部 类 ClassTwo 的 
_qualname _ 属 性， 其 值 是 字符 串 'ClassOne.ClassTwo'， 而 
_ name _ 属性 的 值 是 'ClassTwo'。 这 个 属性 的 规范 是 “PEP 3155— 
Qualified name for classes and functions” ° 


cls. subclasses () 


这 个 方法 返回 一 个 列表 ， 包 含 类 的 直接 子 类 。 这 个 方法 的 实现 使 用 弱 引 
用 ,防止 在 超 类 和 子 类 (FATE __bases__ 属性 中 储存 指向 超 类 的 强 引 
用 ) 之 间 出 现 循环 引用 。 这 个 方法 返回 的 列表 中 有 是 内 存 里 现存 的 于 类 。 


cls.mro() 


构建 类 时 ， 如 果 需 要 获取 储存 在 类 属性 __mro__ 中 的 超 类 元 组 ， 解 释 
u o 元 类 可 以 覆盖 这 个 方法 ， 定 制 要 构建 的 类 解析 方法 的 顺 


地 


A dir(...) 函数 不 会 列 出 本 万 提 到 的 任何 一 个 属性 。 


我 们 对 类 元 编程 的 学 习 到 此 结束 。 这 是 个 很 大 的 话题 ， 我 只 讲 了 皮毛 。 
此 ， 本 书 各 章 都 有 “延伸 阅读 "一 闻 。 


21.8 ”本 章 小 结 


类 元 编程 是 指 动态 创建 或 定制 类 。 在 Python 中 ， 类 是 一 等 对 象 ， 因 此 本 章 首 
先 说 明 如 何 通 过 调用 内 置 的 type 元 类 ， 使 用 画 数 创建 类 。 


接 下 来 的 一 万 继续 讨论 第 20 章 使 用 描述 符 实现 的 LineItem 类 ， 解 决 一 个 
遗留 问题 : 如 何 让 生成 的 储存 属性 名 中 包含 托管 属性 的 名 称 〈 例 如， 把 
_Quantity#1 变 成 _Quantity#price) 。 解 决 办 法 是 使 用 类 装饰 器 。 说 
到 底 ， 类 疤 饰 器 是 函数 ， 其 参数 是 被 装饰 的 类 ， 用 于 审查 和 修改 刚 创建 的 
类 ， 甚 至 蔡 换 成 其 他 类 。 


然后 ， 本 章 讨论 了 模块 中 不 同 部 分 的 代码 何 时 运行 。 我 们 发 现 ， 所 谓 的 “ 导 
入 时 ”和 “运行 时 "之 间 有 重 又 ， 不 过 很 明显 ，import 语句 会 触发 运行 大 量 代 
码 。 知 道 代码 何 时 运行 至 关 重 要 ， 可 是 有 些 规则 难以 捉摸 ， 因 此 我 们 通过 两 
个 计算 时 间 练 习 对 此 做 了 说 明 。 


接 下 来 ， 本 章 介绍 了 元 类 。 我 们 得 知 ， 所 有 类 都 直接 或 间接 地 是 type 的 实 
例 ， 因 此 在 Python 中 ，type 是 “ 根 元 类 ”。 然 后 ， 我 们 对 之 前 的 计算 时 间 练 
习 做 了 修改 ， 以 此 说 明 元 类 可 以 定制 类 的 层次 结构 。 类 装饰 器 则 不 同 ， 它 只 
能 影响 一 个 类 ， 而 且 对 后 代 可 能 没有 影响 。 


随后 ， 我 们 实际 使 用 元 类 ， 解 决 LineItem 类 中 储存 属性 的 命名 问题 。 最 终 
写 出 的 代码 比 类 装饰 器 难 懂 一 些 ， 不 过 可 以 封装 在 一 个 模块 里 ， 这 样 用户 只 
需 继 承 看 似 普通 的 一 个 类 (model .Entity) ， 而 不 用 知道 它 是 元 类 
(model.EntityMeta) 的 实例 。 这 种 处 理 方式 让 人 想起 了 Django 和 
SQLAlchemy 的 ORM API: 使 用 元 类 实现 ， 用 户 却 根本 无 需 知道 。 


我 们 实现 的 第 二 个 元 类 为 model .EntityMeta 类 添加 了 一 个 小 功能 : 定义 
__prepare__ 方法， 返回 一 个 OrderedDict 对 象 ， 用 于 储存 名 称 到 属性 
的 映射 。 这 样 做 能 保留 要 构建 的 类 在 定义 体 中 绑 定 属性 的 顺序 ， 提 供给 元 类 
的 _new 和 init_ 等 方法 使 用 。 在 这 个 示例 中 ， 我 们 定义 了 类 属性 
_field_names， 因 此 用 户 可 以 使 用 Entity.field_names() 方法 以 
Validated 描述 符 出 现在 源码 中 的 顺序 获取 描述 符 。 


最 后 一 节 ， 我 们 概述 了 Python 为 所 有 类 提供 的 属性 和 方法 。 


元 类 是 充满 挑战 、 让 人 兴奋 的 功能 ， 有 时 会 被 故 作 聪 明 的 程序 员 滤 用 。 最 
oo Alex Martelli 在 他 写 的 “水 禽 和 抽象 基 类 ”一 文 的 最 后 给 我 
| 建议 : 


此 外 ， 不 要 在 生产 代码 中 定义 抽象 基 类 (或 元 类 ) .……. 如 采 你 很 想 这 样 
做 ， 我 打赌 可 能 是 因为 你 想 “ 找 茬 "， 刚 拿 到 新 工具 的 人 都 有 大 十 一 场 的 
冲动 。 如 果 你 能 避 开 这 些 深奥 的 概念 ， 你 (以 及 未 来 的 代码 维护 者 ) 的 
生活 将 更 愉快 ， 因 为 代码 简洁 明了 。 


Alex Martelli 


说 出 上 述 至 理 名 言 的 人 不 仅 是 Python 元 编程 大 师 ， 还 是 造 语 帆 深 的 软件 工程 
师 ， 负 责 世 界 上 几 个 最 重要 的 Python 应 用 。 


21.9 ”延伸 阅读 


为 了 深入 学 习 本 章 所 述 的 知识 ， 一 定 要 阅读 Python 语言 参考 手册 中 “Data 
Model” 一 章 里 的 “3.3.3. Customizing class creation" 一 分、“Built-in 
Functions” 一 章 中 type 类 的 文档 ， 以 及 标准 库 参 考 中 “Built-in Types” 一 章 里 
的 “4.13. Special Attributes” 一 他。 此 外 ， 在 标准 库 参 考 中 ，types 模块 的 文 
档 说 明了 Python 3.3 引入 的 两 个 新 函数 ， 这 两 个 函数 用 于 辅助 类 元 编程 : 


types.new_class(...) #l types. prepare_class(...)° 


I 


类 装饰 器 的 规范 是 “PEP 3129—Class Decorators”， 作 者 是 Collin Winter， 参 
考 实现 由 Jack Diederich 提供 。Jack Diederich 在 PyCon 2009 大 会 上 做 了 一 场 
题 为 “Class Decorators: Radically Simple” 的 演讲 (视频 ) ， 对 这 个 功能 做 了 简 
单 介 绍 。 


Alex Martelli 写 的 《Python 技术 手册 (第 2 版 )》 对 元 类 的 说 明 很 出 色 ， 还 
实现 了 metaMetaBunch 元 类 ， 其 作用 与 示例 21-2 中 简单 的 
record_factory 函数 一 样 ， 不 过 完善 得 多 。Martelli 没有 探讨 类 装饰 器 ， 
因为 这 个 功能 在 那 本 书 出 版 后 才 引 入 。Beazley 和 Jones 在 他 们 合 著 的 
《Python Cookbook (38 3 版 ) 中 文 版 》 中 提供 了 几 个 示例 ， 很 好 地 演示 了 类 
装饰 器 和 元 类 。Michael Foord 写 了 一 篇 引人入胜 的 文章 ， 题 为 "Meta-classes 
Made Easy: Eliminating self with Metaclasses”。 副标题 〈《“ 借 助 元 类 去 掉 
self”) 说 明了 一 切 。 


元 类 的 主要 参考 资料 有 引入 特殊 方法 __prepare__ 的 “PEP 3115— 
Metaclasses in Python 3000”， 以 及 Guido van Rossum 发 布 的 文章 *Unifying 


types and classes in Python 2.2”。 这 篇 文章 也 适用 于 Python 3， 谈 到 了 后 来 称 
为 “新 式 类 ”的 语义 ， 包 括 描述 符 和 元 类 ， 一 定 要 阅读 。Gnuido 在 文中 提 到 了 
Ira R. Forman 与 Scott H. Danforth 合 著 的 Putting Metaclasses to Work: a New 
Dimension in Object-Oriented Programming (Addison- Wesley 出 版 社 ，1998 
E) ， 他 在 亚马逊 上 给 这 本 书 打 了 五 颗 星 ， 还 写 了 如 下 评论 ; 


这 本 书 促成 Python 2.2 实现 了 元 类 

可 惜 ， 这 本 书 已 经 绝版 了 。Python 通过 super() KAEM T MERL 
重 继承 ， 谈 到 这 方面 的 难题 时 ， 我 总 会 提 到 这 本 书 ; ARA, IAE 
是 这 方面 最 好 的 教程 。6 


6 摘 目 亚 马 示 网 站 中 Putting Metaclasses to Work 的 商品 目录 页 面 。 目 前 还 有 二 手书 出 售 。 我 天 了 一 
本 ， 发 现 很 难 读 懂 ， 不 过 以 后 我 可 能 会 再 读 。 


“PEP 487—Simpler customization of class creation” 提 议 为 Python 3.5 ( 写 到 这 
里 时 ， 处 于 内 测 阶 段 ， 添 加 一 个 新 的 特殊 方法 __init_subclass ,让 
普通 的 类 ( 即 ， 不 是 元 类 ) 定制 子 类 的 初始 化 。 与 类 装饰 器 一 样 ， 
__init_subclass__ 方法 能 让 类 元 编程 变 得 更 简单 ， 但 会 导致 元 类 这 个 
强大 的 功能 更 难 正确 使 用 。 


“现在 ，Python 3.5 已 经 正式 发 布 ， PEP 487 没有 在 Python 3.5 中 实现 ， 而 是 推迟 到 Python 3.6 F ° 
编者 注 


如 果 你 喜欢 元 编程 ， 可 能 希望 Python 提供 基本 的 元 编程 功能 
Lisp 语言 族 提 供 的 句法 宏 。 天 遂 人 愿 ， 我 们 有 MacroPy 可 用 。 


这 是 本 书 最 后 一 篇 “杂谈 ”了 ， 首 先 我 要 从 Brian Harvey 与 Matthew 
Wright 合 写 的 著作 中 引述 一 大 段 文字 。Harvey 和 Wright 是 加 州 大 学 
〈 伯 克利 分 校 和 圣 巴巴 拉 分 校 ) 的 计算 机 科学 教授 ， 他 们 在 合 著 的 

Simply Scheme 一 书 中 写 道 : 


计算 机 科学 的 教学 方式 分 成 两 个 流派 ， 可 以 描述 如 下 。 

(1) 保守 派 计算 机 程序 已 经 变 得 极其 大 而 复杂 ， 超 过 了 人 类 思维 所 
能 承载 的 限度 。 因 此 ， 计 算 机 科学 教育 的 任务 是 训练 平庸 的 程序 
员 ， 这 样 500 个 人 合作 便 能 开发 出 恰好 满足 需求 的 程序 。 


(2) 激 进 派 计算 机 程序 已 经 变 得 极其 大 而 复杂 ， 超 过 了 人 类 思维 所 
能 承载 的 限度 。 因 此 ， 计 算 机 科学 教育 的 任务 是 教 人 如 何 拓展 思 


Elixir 和 


维 ， 打 破 常 规 ， 学 习 以 更 广博 、 更 强大 和 更 灵活 的 方式 思考 ， 让 甩 
维 超越 程序 。 编 程 思想 的 各 个 方面 在 程序 中 必 会 得 到 充分 体现 。8 


Brian Harvey 和 Matthew Wright 
Simply Scheme 前 言 


这 是 Harvey 和 Wright 对 计算 机 科学 教育 的 众 张 描述 ， 不 过 也 运用 于 纺 
程 语言 的 设计 。 现 在 ， 你 应 该 能 猜 到 ， 我 赞成 激进 派 ”， 我 认为 Python 
也 是 以 这 种 态度 设计 的 。 


为 了 稳扎稳打 ，Java 从 一 开始 使 用 的 就 是 存 取 方法 ， 而 且 众 多 Java IDE 
都 提供 了 生成 读 值 方法 和 设 值 方 法 的 快捷 键 ; 与 此 相 比 ， 特 性 算是 一 大 
进步 。 特 性 的 主要 优点 是 ， 一 开始 编写 程序 时 可 以 先 把 属性 设 为 公开 的 
(遵照 KISS 原则 ) ， 因 为 公开 的 属性 无 需 大 幅 改 动 ， 随 时 都 能 变 成 特 
性 。 不 过 ， 描 述 符 更 进一步 ， 提 供 了 去 除 存 取 方法 中 逻辑 重复 的 机 制 。 
这 种 机 制 特别 有 效 ， 因 此 基本 的 Python 结构 在 背后 也 用 到 了 描述 符 。 


另 一 个 强大 的 想法 是 ， 把 函数 当 作 一 等 对 象 ， 这 为 高 阶 函 数 铺 平 了 道 
路 。 描 述 符 和 高 阶 函 数 合 在 一 起 实现 ， 使 得 函数 和 方法 的 统一 成 为 可 
fE o KAI get ”方法 能 即时 生成 方法 对 象 ， 把 实例 绑 定 到 self 
参数 上 。 这 种 做 法 相当 优雅 。? 


最 后 ，Python 中 的 类 也 是 一 等 对 象 。 作 为 一 门 对 初学 者 友好 的 语言 ， 
Python 能 提供 类 装饰 锅 ， 人 允许 用 户 定 义 功 能 完整 的 元 类 ， 这 些 强 大 的 抽 
象 真是 太 棒 了 “。 最 棒 的 是 ， 这 些 高 级 功能 没有 拖累 日 常 编程 〈 其 实 无 形 
中 提供 了 帮助 ) 。Django 和 SQLAlchemy 等 框架 用 起 来 这 么 方便 ， 发 展 
得 这 么 成 功 ， 很 大 程度 上 归功 于 元 类 ， 而 这 些 工具 的 用 户 甚 至 不 知道 元 
类 的 存在 。 不 过 ， 他 们 可 以 学 习 ， 去 创建 下 一 个 伟大 的 库 。 


我 还 未 见 过 有 哪 门 语言 像 Python 这 样 竭 尽 所 能 ， 让 初学 者 易于 入 1 门 ， 让 
专业 人 士 用 着 顺手 ， 让 程序 高 手 欢欣 鼓舞 。 感 谢 Guido van Rossum, DA 
及 为 此 努力 的 每 个 人 。 


有 此 


8Brian Harvey and Matthew Wright, Simply Scheme (MIT Press, 1999), p. xvii. 伯克利 分 校 的 网 站 
书 全 文 。 


?David Gelernter 写 的 Machine Beauty (Basic Books 出 版 社 ) 是 一 本 非常 有 趣 的 小 书 ， 对 工程 作品 
(从 桥梁 到 软件 ) 的 优雅 和 美学 做 了 阐述 。 


结语 


Python 是 给 法 定 成 年 人 使 用 的 语言 


Alan Runyan 
Plone 的 联合 创始 人 


Alan 的 精辟 定义 道 出 了 Python 最 好 的 特质 之 一 : 它 不 妨碍 你 ， 让 你 做 你 该 
做 的 事 。 这 也 意味 着 ， 它 不 会 给 你 提供 工具 ， 让 你 限制 其 他 人 能 对 你 的 代码 
和 代码 所 构建 的 对 象 做 什么 。 


当然 ，Python 不 完美 。 对 我 来 说 ， 最 没 法 接受 的 是 ，Python 在 标准 库 中 混用 
TEERAA, MAARE AEE E o B, S EEEE R 
是 生态 系统 的 一 部 分 。 用 户 和 贡献 者 组 成 的 社区 才 是 Python 生态 系统 最 重要 


的 部 分 。 


有 一 个 例子 可 以 说 明 社 区 的 好 处 。 一 天 早上 ， 我 在 撰写 asyncio 包 相 关 的 
内 容 时 ， 感 到 很 肖 来 ， 因 为 那个 包 的 API 有 很 多 函数 ， 其 中 有 些 是 协 程 ， 可 
是 协 程 必须 使 用 yield from 调用 ， 而 第 规 的 函数 不 能 这 人 么 做 。 这 在 
asyncio 包 的 文档 中 有 说 明 ， 可 是 有 时 阅读 几 段 文字 之 后 才能 确定 某 个 函 
数 是 不 是 协 程 。 因 此 ， 我 给 python-tulip 邮件 列表 发 了 一 个 消息 ， 题 

为 “Proposal: make coroutines stand out in the asyncio docs” ° asyncio 包 的 核 
心 开发 者 Victor Stinner ` aiohttp 包 的 主要 作者 Andrew Svetlov ` Tornado 
的 首席 开发 者 Ben Darell, LK Twisted 的 发 明 者 Glyph Lefkowitz 加 入 了 讨 
论 。Darnell 提出 了 一 个 方案 ，Alexander Shorin 解说 如 何在 Sphinx 中 实现 ， 
Stinner 添加 了 所 需 的 配置 和 标记 。 我 提出 这 个 问题 不 到 12 小 时 ，asyncio 
包 的 整个 线 上 文档 都 更 新 了 ， 添 加 了 今天 你 所 看 到 的 “coroutine” 标 签 。 


在 排外 的 社区 中 绝 不 会 有 这 种 事 。 任 何人 都 能 加 入 python-tulip 邮件 列表 ， 
我 编写 那个 提议 之 前 只 发 布 过 几 次 消息 而 已 。 这 个 故事 表明 ，Python 社区 特 
别 开 放 ， 广 纳 新 想法 和 新 成 员 。Guido van Rossum 也 在 python-tulip 邮件 列 
表 中 ， 即 使 是 简单 的 问题 也 经 常 回答 。 


还 有 一 个 例子 能 说 明 Python 的 开放 : Python 软件 基金 会 (Python Software 
Foundation，PSF) 一 直 在 努力 提升 Python 社区 的 多 样 性 ， 而 且 已 经 达成 一 
些 令 人 欣喜 的 成 果 。2013 一 2014 F, PSF 董事 会 首次 选 出 了 女性 董事 一 一 
Jessica McKellar 和 Lynn Root ° 2015 年 在 蒙特 利 尔 举办 的 PyCon North 
America KÈ (Diana Clarke 主持 ) , 2 1/3 的 演讲 者 是 女性 。 我 还 没 见 过 其 
他 工大 会 如 此 追求 性 别 平等 。 


Ll 


如 果 你 是 Python 程序 员 ， 但 尚未 加 入 社区 ， 我 建议 你 快 点 加 入 。 寻 找 你 所 在 
地 区 的 Python 用 户 组 (Python Users Group, PUG) 。 如 果 没 有 ， 那 就 创建 
一 个 。 任 何 地 方 都 有 人 使 用 Python， 你 并 不 孤独 。 如 果 可 能 的 话 ， 参 加 别处 
举办 的 会 议 。 来 参加 PythonBrasil 大 会 吧 ， 多 年 以 来 这 个 大 会 都 有 来 目 世界 
各 地 的 演讲 者 。 与 其 他 Python 程序 员 见 面 比 任何 线 上 互动 都 好 ， 除 了 可 以 获 
得 别人 分 享 的 知识 外 ， 还 有 很 多 好 处 ， 例 如 工作 机 会 和 真正 的 友谊 。 


我 知道 ， 如 果 没 有 多 年 来 我 在 Python 社区 中 结交 的 朋友 的 帮助 ， 我 不 可 能 写 
出 这 本 书 。 


我 的 父亲 说 过 ,，“S6 erra quem trabalha”， 这 是 葡萄 牙 语 ， 和 意思 是 “只 有 真正 做 
事 的 人 才 会 犯错 ”。 这 个 建议 很 梭 ， 能 让 你 不 再 害怕 失败 ， 迈 步 同 前 。 撰 写 
这 本 书 的 过 程 中 ， 我 肯定 犯 了 错误 。 审 校 、 编 辑 和 预先 发 布 版 的 读者 帮 有 我 找 
出 了 很 多 错误 。 早 期 发 布 版 刚 发 布 几 小 时 ， 就 有 一 个 读者 在 本 书 的 勘误 页 面 
报告 拼写 错误 。 其 他 读者 报告 了 更 多 错误 ， 我 的 朋友 还 直接 联系 我 ， 提 供 建 
议和 更 正 。 我 写 完 本 书后 ，O'Reilly 的 文字 编辑 会 在 出 版 过 程 中 找 出 其 他 错 
如 果 还 有 任何 错误 和 词 不 达意 的 表述 ， 责 任 都 在 我 ， 在 此 同 各 位 读者 臻 
IN 心 


终于 写 完 这 本 书 了 ， 我 特别 高 兴 ， 无 论 有 没有 错误 ， 我 都 十 分 感激 一 路 上 给 
我 助 的 每 个 人 。 项 望 人 快 就 能 在 会 议 上 见 到 你 。 如 果 见 到 我， 请 过 来 条 声 
ANE 。 


延伸 阅读 


在 本 书 的 最 后 ， 我 要 介绍 一 些 “python 风格 "的 参考 资料 这 正 是 本 书 尝试 
解决 的 主要 问题 « 


Brandon Rhodes 是 位 出 色 的 Python 教师 ， 他 的 演讲 “A Python Æsthetic: 
Beauty and Why I Python” 很 精彩 ， 从 标题 中 使 用 的 Unicode 字符 U+00C6 

(拉丁 语 大 写字 母 AE) 开始 谈 起 。 男 一 位 出 色 的 教师 Raymond Hettinger, 
在 2013 年 的 PyCon US 大 会 上 谈 了 Python 之 美 : “Transforming Code into 
Beautiful, Idiomatic Python”。 


Ian Lee 在 Python-ideas 邮件 列表 中 发 起 的 “Evolution of Style Guides” 话 题 值得 
一 读 。Lee 是 pep8 包 的 维护 者 ， 这 个 包 的 作用 是 检查 Python 代码 是 否 符合 
PEP 8。 检 查 书 中 的 代码 时 ， 我 用 的 是 flake8 

(https://pypi.python.org/pypi/flake8) ， 这 个 包 融 合 了 pep8、pyflakes 
a AAE 和 Ned Batchelder 开发 的 McCabe 复 
AS) 


除了 PEP 8，Google 的 Python 风格 指南 和 Pocoo 风格 指南 也 有 很 大 的 影响 。 
Pocoo 团队 为 我 们 开发 了 Flask ` Sphinx ` Jinja 2 和 其 他 优秀 的 Python Æ ° 


The Hitchhiker's Guide to Python! 由 多 人 维护 ， 说 明 如 何 编 写 符 号 Python X 
格 的 代码 。 为 这 个 项 目 页 献 最 多 内 容 的 是 Kenneth Reitz， 他 因 开 发 特别 符合 
Python 风格 的 requests 包 而 被 社区 视 为 英雄 。David Goodger 在 2008 年 举 
办 的 PyCon US 大 会 上 办 了 一 场 教 学 活动 ， 题 为 "Code Like a Pythonista: 
Idiomatic Python”。 如 果 打 印 出 来 ， 这 个 教程 的 教案 有 30 页 。 当 然 ， 教 案 的 
reStructuredText 源码 能 下 载 到 ， 可 以 使 用 docutils Aye 45% HTML 和 
S5 幻灯 上 请。 上 毕竟，reStructuredText 和 docutils 都 是 Goodger 的 作品 。 这 
两 个 工具 是 Sphinx 的 基础 。Sphinx 是 优秀 的 Python 文档 系统 ， 顺 便 提 一 

F, MongoDB 和 很 多 其 他 项 目的 官方 文档 系统 都 是 Sphinx。 


Martijn Faassen 直接 回答 了 “什么 是 Python 风格 ”这 个 问题 ，python-list 邮件 

列表 中 也 有 一 个 相同 标题 的 话题 。Martijn 的 文章 是 2005 年 写 的 ， 那 个 话题 
是 2003 年 讨论 的 ， 不 过 Python 风格 的 思想 没 怎么 变化 ，Python 语言 本 里 也 
是 如 此 。“Pythonic way to sum n-th list element?” 话 题 对 Python 风格 做 了 深入 
讨论 ， 我 在 第 10 章 的 “杂谈 ”中 有 大 量 引 用 。 


“PEP 3099 — Things that will Not Change in Python 3000” 解 释 了 经 过 Python 3 
大 幅度 的 调整 之 后 ， 为 何许 多 东西 仍 是 现在 的 样子 。 长 久 以 来 ，Python 3 有 
个 昵称 一 一 Python 3000， 不 过 诞生 时 间 早 了 几 个 世纪 ， 这 让 一 些 人 失望 。 
PEP 3099 的 作者 是 Georg Brandl, {tice TEKA (BH Guido van 
Rossum) 的 很 多 观点 。Python Essays 页 面 列 出 了 很 多 Guido 自己 写 的 文章 。 


MKA 辅助 脚本 


有 些 脚 本 太 长 ， 在 正文 里 放 不 下 ， 这 里 将 其 完整 列 出 。 此 外 ， 有 些 脚 本 用 于 
生成 书 中 的 表格 和 数据 ， 这 里 一 并 列 出 。 


这 里 列 出 的 脚本 ， 以 及 书 中 几乎 每 个 代码 片段 ， 见 于 本 书 的 代码 仓库 。 


Al 第 3 章 : in 运算 符 的 性 能 测试 


K 3-6 中 的 计时 数据 是 我 使 用 示例 A-1 中 的 代码 生成 的 ， 这 段 代 码 用 到 了 
timeit 模块 。 这 个 脚本 主要 用 于 设置 haystack fll needles 样本 ， 并 格 
式 化 输出 。 


编写 示例 A-1 时 ， 我 发 现 的 确 能 客观 比较 dict 的 性 能 。 如 果 在 “详细 模 

式 ”( 指 定 命令 行 选项 -v) 中 运行 这 个 脚本 ， 用 时 几乎 是 表 3-5 中 的 两 倍 。 
但 是 注意 ， 对 这 个 脚本 来 说 ， 在 “详细 模式 ”中 ， 只 是 多 了 用 于 设置 测试 内 容 
的 四 个 print 调用 ， 以 及 在 各 个 测试 结束 后 显示 找到 多 少 个 needles 的 那 
个 print 调用 。 在 haystack 中 搜索 needles 的 那个 循环 没有 输出 ， 不 
过 这 五 个 print 调用 耗费 的 时 间 与 搜索 1000 个 needles 差不多 。 


示例 A-1 container_perftest.py: 运行 时 以 内 置 集合 类 型 的 名 称 为 命令 行 
参数 〈 例 如 container_perftest.py dict) 


对 容器 的 ”in 运算 符 做 性 能 测试 


import sys 
import timeit 


SETUP = ''' 
import array 


selected = array.array('d') 
with open('selected.arr', 'rb') as fp: 
selected.fromfile(fp, {size}) 
if {container_type} is dict: 
haystack = dict.fromkeys(selected, 1) 
else: 
haystack = {container_type}(selected) 
if {verbose}: 
print(type(haystack), end=' ') 
print('haystack: %10d' % len(haystack), end=' ') 
needles = array.array('d') 


with open('not_selected.arr', 'rb') as fp: 
needles.fromfile(fp, 500) 
needles.extend(selected[::{size}//500] ) 
if {verbose}: 
print(' needles: %10d' % len(needles), end=' ') 


TEST = ''! 
found = 0 
for n in needles: 
if n in haystack: 
found += 1 
if {verbose}: 
print(' found: %10d' % found) 


def test(container_type, verbose): 

MAX_EXPONENT = 7 

for n in range(3, MAX_EXPONENT + 1): 
size = 10**n 
setup = SETUP.format(container_type=container_type, 

size=size, verbose=verbose) 

test = TEST.format(verbose=verbose) 
tt = timeit.repeat(stmt=test, setup=setup, repeat=5, number=1) 
print('|{:{}d}|{:f}'.format(size, MAX_EXPONENT + 1, min(tt))) 


if name__=='__ main__': 
if '-v' in sys.argv: 
sys.argv.remove('-v') 
verbose = True 
else: 
verbose = False 
if len(sys.argv) != 2: 
print('Usage: %s <container_type>' % sys.argv[0]) 
else: 
test(sys.argv[1], verbose) 


a en Ea anne A een ea ee 
件数 据 。 


示例 A-2 container_perftest_datagen.py: 生成 由 不 同 的 序 点 数组 成 的 数 
组 ， 然 后 写 入 文件 ， 供 示例 A-1 使 用 


生成 容器 性 能 测试 所 需 的 数据 


import random 
import array 


MAX_EXPONENT = 7 


HAYSTACK_LEN = 10 ** MAX_EXPONENT 
NEEDLES_LEN = 10 ** (MAX_EXPONENT - 1) 
SAMPLE_LEN = HAYSTACK_LEN + NEEDLES_LEN // 2 


needles = array.array('d') 


sample = {1/random.random() for i in range(SAMPLE_LEN) } 
print('initial sample: %d elements' % len(sample) ) 


# SCRMA, BEEF SRA GENLAL 
while len(sample) < SAMPLE_LEN: 
sample.add(1/random. random() ) 


print('complete sample: %d elements' % len(sample) ) 


sample = array.array('d', sample) 
random. shuffle(sample) 


not_selected = sample[:NEEDLES_LEN // 2] 

print('not selected: %d samples' % len(not_selected) ) 

print(' writing not_selected.arr') 

with open('not_selected.arr', 'wb') as fp: 
not_selected.tofile(fp) 


selected = sample[NEEDLES_LEN // 2:] 

print('selected: %d samples' % len(selected) ) 

print(' writing selected.arr') 

with open('selected.arr', 'wb') as fp: 
selected.tofile(fp) 


A2 3H: 比较 散 列 后 的 位 模式 


示例 A-3 是 个 简单 的 脚本 ， 告 诉 你 相似 浮 点 数 (例如 1.0001、1.0002， 等 
等 ) 的 位 模式 有 什么 差异 。 这 个 脚本 的 输出 在 示例 3-16 中 。 


示例 A-3 hashdiff.py: 显示 散 列 值 的 位 模式 有 何 差异 


import sys 


MAX_BITS = len(format(sys.maxsize, 'b')) 
print('%s-bit Python build' % (MAX_BITS + 1)) 


def hash_diff(o1, 02): 
h1 = '{:>0{}b}'.format(hash(o1), MAX_BITS) 
h2 = '{:>0{}b}'.format(hash(o2), MAX_BITS) 
diff = ''.join('!' if b1 != b2 else ' ' for b1, b2 in zip(h1, h2)) 
count "l= {}'.format(diff.count('!')) 
width max(len(repr(o1)), len(repr(o2)), 8) 
sep = '-' * (width * 2 + MAX_BITS) 
return '{!r:{width}} {}\n{:{width}} {} {}\n{!r:{width}} 


{}\n{}'. format ( 
o1, hi, ' ' * width, diff, count, 02, h2, sep, 
width=width ) 


if _name__ == '__main_': 
print(hash_diff(1, 1.0)) 
print(hash_diff(1.0, 1.0001) ) 
print(hash_diff(1.0001, 1.0002)) 
print(hash_diff(1.0002, 1.0003) ) 


A3 第 9 章 : 有 或 没有 slots 时 ，RAM 的 用 量 


memtest.py 脚本 用 于 支持 9.8 市 的 一 个 演示 示例 9-12 ° 

memtest.py 脚本 从 命令 行 中 接收 一 个 模块 的 名 称 ， 加 载 那个 模块 。 假 设 模块 
中 定义 有 一 个 名 为 Vector 的 类 ，memtest.py 脚本 会 创建 一 个 由 一 千 万 个 实 
例 组 成 的 列表 ， 然 后 报告 创建 列表 前 后 内 存 的 用 量 。 


示例 A-4 memtest.py: 创建 大 量 Vector 实例 ， 报 告 内 存 用 量 


import importlib 
import sys 
import resource 


NUM_VECTORS = 10**7 


if len(sys.argv) == 2: 
module_name = sys.argv[1].replace('.py', '') 
module = importlib.import_module(module_name) 
else: 
print('Usage: {} <vector-module-to-test>'.format()) 
sys.exit(1) 


fmt = 'Selected Vector2d type: {.__name__}.{.__name_}' 
print(fmt.format(module, module.Vector2d) ) 


mem_init = resource.getrusage(resource.RUSAGE_SELF).ru_maxrss 
print('Creating {:,} Vector2d instances'.format(NUM_VECTORS) ) 


vectors = [module.Vector2d(3.0, 4.0) for i in range(NUM_VECTORS) ] 


mem_final = resource.getrusage(resource.RUSAGE_SELF).ru_maxrss 
print('Initial RAM usage: {:14,}'.format(mem_init) ) 
print(' Final RAM usage: {:14,}'.format(mem_final) ) 


A.4 第 14 章 : 转换 数据 库 的 isis2json.py 脚 本 


示例 A-5 是 14.13 下 讨论 的 isis2json.py 脚本 。 这 个 脚本 使 用 生成 絮 函 数 ， 以 
惰性 的 方式 把 CDS/ISIS 数据 库 转 换 成 JSON 格式 ， 以 便 载 入 到 CouchDB 或 
MongoDB 。 


注意 ， 这 是 个 Python 2 脚本 ， 针 对 CPython 或 Jython， 文 持 Python 

2.5~2.7， 不 能 使 用 Python 3 运行 。 在 CPython 中 ， 只 能 读 取 iso 文件 ; 在 
Jython 中 ， 使 用 GitHub 中 fluentpython/isis2json 仓库 里 的 Bruma 库 ， 还 可 以 
读 取 mst 文件 。 详 情 参 见 该 仓库 里 的 用 法 文档 。 


示例 A-5 isis2json.py: 依赖 和 文档 在 GitHub 中 的 fluentpython/isis2json 
EAR 


# 这 个 脚本 支持 Python 和 Jython (版 本 >=2.5 且 &1lt ;3) 


import sys 

import argparse 

from uuid import uuid4 
import os 


try: 
import json 
except ImportError: 
if os.name == 'java': # 在 Jython 中 运行 
from com.xhaus.jyson import JysonCodec as json 
else: 
import simplejson as json 


SKIP_INACTIVE = True 
DEFAULT_QTY = 2**31 

ISIS MFN_KEY = 'mfn' 

ISIS _ACTIVE_KEY = ‘active' 
SUBFIELD_DELIMITER = '^' 
INPUT_ENCODING = 'cp1252' 


def iter_iso_records(iso_file_name, isis_json_type): @ 
from iso2709 import IsoFile 
from subfield import expand 


iso = IsoFile(iso_file_name) 
for record in iso: 
fields = {} 
for field in record.directory: 
field_key = str(int(field.tag)) # 删除 前 导 零 
field_occurrences = fields.setdefault(field_key, []) 
content = field.value.decode(INPUT_ENCODING, 'replace' ) 
if isis json type == 1: 
field_occurrences.append(content ) 
elif isis_json_type == 2: 
field_occurrences.append(expand(content ) ) 


elif isis_json_type == 
field_occurrences.append(dict(expand(content ) ) ) 

else: 
raise NotImplementedError('ISIS-JSON type %s conversion 


‘not yet implemented for .iso input' % 
isis_json_type) 


yield fields 
iso.close() 


def iter_mst_records(master_file_name, isis_json_type): @ 
try: 
from bruma.master import MasterFactory, Record 
except ImportError: 
print('IMPORT ERROR: Jython 2.5 and Bruma.jar ' 
‘are required to read .mst files') 
raise SystemExit 
mst = MasterFactory.getInstance(master_file_name).open() 
for record in mst: 
fields = {} 
if SKIP_INACTIVE: 
if record.getStatus() != Record.Status.ACTIVE: 
continue 
else: # 仅 当 没有 活动 的 记录 时 才 保 存 状 态 
fields[ISIS_ACTIVE_KEY] = (record.getStatus() == 
Record.Status.ACTIVE) 
fields[ISIS_MFN_KEY] = record.getMfn() 
for field in record.getFields(): 
field_key = str(field.getId()) 
field_occurrences = fields.setdefault(field_key, []) 
if isis_json_type == 3: 
content = {} 
for subfield in field.getSubfields(): 
subfield_key = subfield.getId() 
if subfield_key == '*': 
content['_'] = subfield.getContent() 
else: 
subfield_occurrences = 
content.setdefault(subfield_key, []) 


subfield_occurrences.append(subfield.getContent()) 
field_occurrences.append(content ) 
elif isis_json_type == 1: 
content = [] 
for subfield in field.getSubfields(): 
subfield_key = subfield.getId() 
if subfield_key == '*': 
content.insert(0, subfield.getContent()) 
else: 
content.append(SUBFIELD_DELIMITER + subfield_key 


subfield.getContent()) 
field_occurrences.append(''.join(content) ) 


else: 
raise NotImplementedError('ISIS-JSON type %s conversion 


‘not yet implemented for .mst input' % 
isis _json_type) 
yield fields 
mst.close() 


def write_json(input_gen, file_name, output, qty, skip, id_tag, © 
gen_uuid, mongo, mfn, isis_json_type, prefix, 
constant): 
start = skip 
end = start + qty 


if id_tag: 
id_tag = str(id_tag) 
ids = set() 

else: 
id_tag = '' 


for i, record in enumerate(input_gen): 
if i >= end: 
break 
if not mongo: 
if i == 0: 
output.write('[') 
elif i > start: 
output.write(',') 
if start <= i < end: 
if id_tag: 
occurrences = record.get(id_tag, None) 
if occurrences is None: 
msg = 'id tag #%s not found in record %s' 
if ISIS _MFN_KEY in record: 
msg = msg + (' (mfn=%s)' % record[ISIS_MFN_KEY]) 
raise KeyError(msg % (id_tag, i)) 
if len(occurrences) > 1: 
msg = ‘multiple id tags #%s found in record %s' 
if ISIS_MFN_KEY in record: 
msg = msg + (' (mfn=%s)' % record[ISIS_MFN_KEY] ) 
raise i e a % (id_tag, i)) 
else: # 好 吧 ， 仅 有 个 id 字段 
if isis _json_ type == 1: 
id = occurrences[0] 
elif isis_json_type == 
id = occurrences[0][0][1] 
elif isis_json_type == 3: 
id = occurrences[6][' '7] 
if id in ids: 
msg = ‘duplicate id %s in tag #%s, record %S | 
if ISIS_MFN_KEY in record: 
msg = msg + (' (mfn=%s)' % 


record[ISIS_MFN_KEY] ) 
raise TypeError(msg % (id, id_tag, i)) 
record['_id'] = id 
ids.add(id) 


elif gen_uuid: 
record['_id'] = unicode(uuid4()) 
elif mfn: 
record['_id'] = record[ISIS_MFN_KEY] 
if prefix: 
# 迭代 一 个 国定 的 标签 序列 
for tag in tuple(record): 
if str(tag).isdigit(): 
record[prefixttag] = record[tag] 
del record[tag] # 这 就 是 迭代 元 组 的 原 
# 获取 标签 ,但 不 直接 从 记录 字典 中 获取 
if constant: 
constant_key, constant_value = constant.split(':') 
record[constant_key] = constant_value 
output.write(json.dumps(record).encode('utf-8')) 
output.write('\n') 
if not mongo: 
output.write(']\n') 


>H 


def main(): @ 
# 创建 解析 器 
parser = argparse.ArgumentParser ( 
description='Convert an ISIS .mst or .iso file to a JSON array') 


# 添加 参数 
parser .add_argument ( 
'file_name', metavar='INPUT.(mst|iso)', 
help='.mst or .iso file to read') 
parser .add_argument ( 
'-o', '--out', type=argparse.FileType('w'), default=sys.stdout, 
metavar='OUTPUT.json', 
help='the file where the JSON output should be written' 
' (default: write to stdout)') 
parser .add_argument ( 
'-c', '--couch', action='store_true', 
help='output array within a "docs" item in a JSON document' 
' for bulk insert to CouchDB via POST to db/_bulk_docs') 
parser .add_argument ( 
'-m', '--mongo', action='store_true', 
help='output individual records as separate JSON dictionaries, 


one' 
' per line for bulk insert to MongoDB via mongoimport 
utility') 
parser .add_argument ( 
'-t', '--type', type=int, metavar='ISIS_JSON_TYPE', default=1, 


help='ISIS-JSON type, sets field structure: 1=string, 2=alist,' 
' 3=dict (default=1)') 

parser .add_argument ( 

'-q', '--qty', type=int, default=DEFAULT_QTY, 

help='maximum quantity of records to read (default=ALL)') 
parser .add_argument ( 

"-s', '--skip', type=int, default=0, 

help='records to skip from start of .mst (default=0)') 


parser.add_argument( 
'-i', '--id', type=int, metavar='TAG_NUMBER', default=0, 
help='generate an "_id" from the given unique TAG field number' 
' for each record') 
parser .add_argument ( 
‘-u', '--uuid', action='store_true', 
help='generate an "_id" with a random UUID for each record') 
parser .add_argument ( 
'-p', '--prefix', type=str, metavar='PREFIX', default='', 
help='concatenate prefix to every numeric field tag' 
' (ex. 99 becomes "v99")') 
parser .add_argument ( 
'-n', '--mfn', action='store_true', 
help='generate an "_id" from the MFN of each record' 
' (available only for .mst input)') 
parser .add_argument ( 
'"-k', '--constant', type=str, metavar='TAG:VALUE', default='', 
help='Include a constant tag:value in every record (ex. -k 
type:AS)') 


# TODO: 实现 这 个 功能 ， 导 出 大 量 记录 供给 couchDB 
parser.add_argument( 

'-r', '--repeat', type=int, default=1, 

help='repeat operation, saving multiple JSON files' 

' (default=1, use -r © to repeat until end of input)') 

# 解析 命令 行 
args = parser.parse_args() 
if args.file_name.lower().endswith('.mst'): 

input_gen_func = iter_mst_records © 
else: 

if args.mfn: 

print('UNSUPORTED: -n/--mfn option only available for .mst 
input. ') 
raise SystemExit 

input_gen_func = iter_iso_records © 
input_gen = input_gen_func(args.file_name, args.type) @ 
if args.couch: 

args.out.write('{ "docs" : ') 
write_json(input_gen, args.file_name, args.out, args.qty, © 

args.skip, args.id, args.uuid, args.mongo, args.mfn, 
args.type, args.prefix, args.constant) 

if args.couch: 

args.out.write('}\n') 
args.out.close() 


if _name == ' | main_': 
main() 


@ iter_iso_records 生成 器 函数 读 取 .iso 文件 ， 产 出 记录 ° 


@ iter_mst_records 生成 器 函数 读 取 .mst 文件 ， 产 出 记录 。 


© write_json KUÍ input_gen 生成 器 ， 输 出 json 文件 。 
O main 函数 读 取 命令 行 参 数 ， 然 后 根据 输入 文件 的 扩展 名 选择 


@ ...... 或 者 iter_iso_records 生成 器 函数 。 
@ 使 用 选中 的 生成 堪 函数 构建 生成 器 对 象 。 
@ 把 生成 器 作为 第 一 个 参数 传 给 write_json KZ ° 


A.5 第 16 章 : 出 租车 队 离散 事件 仿真 


示例 A-6 是 16.9.2 节 讨 论 的 taxi_sim.py 脚本 的 完整 代码 。 


示例 A-6 taxi_sim.py: 出 租车 队 仿真 程序 


tH 租车 仿真 程序 


力 出 租车 : : 


>>> from taxi_sim import taxi_process 
>>> taxi = taxi_process(ident=13, trips=2, start_time=0) 
>>> next(taxi) 


Event(time=0, proc=13, action='leave garage' ) 
>>> taxi.send(_.time + 7) 
Event(time=7, proc=13, action='pick up passenger' ) 


>>> taxi.send(_.time + 23) 
Event(time=30, proc=13, action='drop off passenger' ) 
>>> taxi.send(_.time + 5) 
Event(time=35, proc=13, action='pick up passenger' ) 
>>> taxi.send(_.time + 48) 
Event(time=83, proc=13, action='drop off passenger' ) 
>>> taxi.send(_.time + 1) 
Event(time=84, proc=13, action='going home' ) 
>>> taxi.send(_.time + 10) 
Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
StopIteration 


运行 示例 : 有 两 辆 出 租车 ， 随 机 种 于 是 10。 这 是 有 效 的 doctest:: 


>>> main(num_taxis=2, seed=10) 

taxi: Event(time=0, proc=0, action='leave garage' ) 

taxi: Event(time=5, proc=0, action='pick up passenger' ) 
taxi: Event(time=5, proc=1, action='leave garage') 

taxi: Event(time=10, proc=1, action='pick up passenger' ) 
taxi: Event(time=15, proc=1, action='drop off passenger' ) 
taxi: Event(time=17, proc=0, action='drop off passenger' ) 
taxi: Event(time=24, proc=1, action='pick up passenger' ) 


taxi: 
taxi: 
taxi: 
taxi: 
taxi: 


Event(time=30, proc=0, action='drop off passenger') 

Event(time=34, proc=0, action='going home' ) 
Event(time=46, proc=1, action='drop off passenger' ) 
Event(time=48, proc=1, action='pick up passenger' ) 
Event(time=110, proc=1, action='drop off passenger' ) 

taxi: Event(time=139, proc=1, action='pick up passenger' ) 

taxi: Event(time=140, proc=1, action='drop off passenger' ) 

taxi: Event(time=150, proc=1, action='going home ) 

*** end of events *** 


模块 末尾 有 个 更 长 的 运行 示例 。 


0 
1 
1 
1 
0 
1 
taxi: © Event(time=26, proc=0, action='pick up passenger ' ) 
0 
0 
1 
1 
1 
1 
1 


import random 
import collections 
import queue 
import argparse 
import time 


DEFAULT_NUMBER_OF_TAXIS = 3 
DEFAULT_END_TIME = 180 
SEARCH_DURATION = 5 
TRIP_DURATION = 20 
DEPARTURE_INTERVAL = 5 


Event = collections.namedtuple('Event', 'time proc action') 


# BEGIN TAXI_PROCESS 
def taxi_process(ident, trips, start_time=0): 
"" "每 次 状态 变化 时 向 仿真 程序 产 出 一 个 事件 """ 
time = yield Event(start_time, ident, 'leave garage') 
for i in range(trips): 
time = yield Event(time, ident, ‘pick up passenger') 
time = yield Event(time, ident, ‘drop off passenger' ) 


yield Event(time, ident, ‘going home' ) 
# 结束 出 租车 进程 
# END TAXI_PROCESS 


# BEGIN TAXI_SIMULATOR 
class Simulator: 


def _ init__(self, procs_map): 
self.events = queue.PriorityQueue() 
self.procs = dict(procs_map) 


def run(self, end_time): 
""" 调 度 并 显示 事件 ， 直 到 时 间 结 束 """ 
# 调度 各 辆 出 租车 的 第 一 个 事件 
for _, proc in sorted(self.procs.items()): 
first_event = next(proc) 
self.events.put(first_event) 


# 此 次 仿真 的 主 循环 
sim time = 0 
while sim time < end_time: 
if self.events.empty(): 
print('*** end of events ***') 
break 


current_event = self.events.get() 
sim_time, proc_id, previous_action = current_event 


print('taxi:', proc_id, proc_id * ' ', current_event ) 


active_proc = self.procs[proc_id] 


next_time = sim_time + compute_duration(previous_action) 


try: 
next_event = active_proc.send(next_time) 
except StopIteration: 
del self.procs[proc_id] 
else: 
self.events.put(next_event ) 
else: 


msg = '*** end of simulation time: {} events pending ***' 


print(msg.format(self.events.qsize())) 
# END TAXI_SIMULATOR 


def compute_duration(previous_action): 


Wit "使 用 指数 分 布 计 ae ERRET" wi 


if previous_action in ['leave garage', 'drop off passenger']: 


# 新 状态 是 四 处 徘徊 
interval = SEARCH_DURATION 
elif previous_action == 'pick up passenger': 
# 新 状态 是 行程 开始 
Interval = TRIP_DURATION 
elif previous_action == 'going home': 
interval = 1 
else: 
raise ValueError('Unknown previous_action: %s' % 
previous_action) 
return int(random.expovariate(1/interval)) + 1 


def main(end_time=DEFAULT_END_TIME, num_taxis=DEFAULT_NUMBER_OF_TAXIS, 


Seed=None ) : 


"7 初始 化 随机 生成 器 ， 构 建 过程 ， 运 行 仿真 程序 """ 
if seed is not None: 


taxis 


random.seed(seed) # 获得 可 复 现 的 结果 


= {i: taxi_process(i, (i+1)*2, i*DEPARTURE_INTERVAL) 
for i in range(num_taxis) } 


sim = Simulator(taxis) 
sim.run(end_time) 


if _name__ == '_ main _': 


parser = argparse.ArgumentParser( 


description='Taxi fleet simulator.') 


parser.add_argument('-e', '--end-time', type=int, 


default=DEFAULT_END_TIME, 
help='simulation end time; default = %s' 
% DEFAULT_END_TIME) 


parser.add_argument('-t', '--taxis', type=int, 


default=DEFAULT_NUMBER_OF_TAXIS, 
help='number of taxis running; default = %s' 
% DEFAULT_NUMBER_OF_TAXIS) 


parser.add_argument('-s', '--seed', type=int, default=None, 


help='random generator seed (for testing)') 


args = parser.parse_args() 
main(args.end_time, args.taxis, args.seed) 


的 运行 示例 : seed=3， 最 长 用 时 =120 : : 


# BEGIN TAXI_SAMPLE_RUN 
$ python3 taxi_sim.py -s 3 -e 120 


taxi: 
taxi: 
taxi: 
taxi: 
taxi: 
taxi: 
taxi: 
taxi: 
taxi: 
taxi: 
taxi: 
taxi: 
taxi: 
taxi: 
taxi: 
taxi: 
taxi: 
taxi: 
taxi: 


FPORRPNNONERFNNONNNFEF OO 


Event(time=0, proc=0, action='leave garage' ) 
Event(time=2, proc=0, action='pick up passenger' ) 
Event(time=5, proc=1, action='leave garage') 
Event(time=8, proc=1, action='pick up passenger' ) 
Event(time=10, proc=2, action='leave garage' ) 
Event(time=15, proc=2, action='pick up passenger' ) 
Event(time=17, proc=2, action='drop off passenger' ) 
Event(time=18, proc=0, action='drop off passenger' ) 
Event(time=18, proc=2, action='pick up passenger' ) 
Event(time=25, proc=2, action='drop off passenger' ) 
Event(time=27, proc=1, action='drop off passenger' ) 
Event(time=27, proc=2, action='pick up passenger' ) 
Event(time=28, proc=0, action='pick up passenger') 
Event(time=40, proc=2, action='drop off passenger' ) 
Event(time=44, proc=2, action='pick up passenger' ) 
Event(time=55, proc=1, action='pick up passenger' ) 
Event(time=59, proc=1, action='drop off passenger' ) 
Event(time=65, proc=0, action='drop off passenger' ) 
Event(time=65, proc=1, action='pick up passenger' ) 


taxi: 2 Event(time=65, proc=2, action='drop off passenger' ) 
taxi: 2 Event(time=72, proc=2, action='pick up passenger' ) 
taxi: © Event(time=76, proc=0, action='going home ) 

taxi: 1 Event(time=80, proc=1, action='drop off passenger' ) 
taxi: 1 Event(time=88, proc=1, action='pick up passenger' ) 
taxi: 2 Event(time=95, proc=2, action='drop off passenger' ) 
taxi: 2 Event(time=97, proc=2, action='pick up passenger' ) 
taxi: 2 Event(time=98, proc=2, action='drop off passenger' ) 
taxi: 1 Event(time=106, proc=1, action='drop off passenger' ) 
taxi: 2 Event(time=109, proc=2, action='going home' ) 

taxi: 1 Event(time=110, proc=1, action='going home ) 


*** end of events *** 
# END TAXI_SAMPLE_RUN 


A.6 第 17 章 : 加 密 示例 


这 几 个 脚本 用 于 展示 如 何 使 用 futures,.ProcessPoo1lExecutor 执行 


CPU 密集 型 任务 。 


示例 A-7 使 用 RC4 算法 加 密 并 解密 随机 的 字 节 数组 ， 需 要 arcfourpy 模块 
( 见 示例 A-8) 支持 才能 运行 。 


示例 A-7 arcfour futures.py: futures.ProcessPoolExecutor 用 
法 示例 


import sys 

import time 

from concurrent import futures 
from random import randrange 
from arcfour import arcfour 


JOBS 
SIZE 


= 12 

= 2**18 

KEY = b"'Twas brillig, and the slithy toves\nDid gyre" 
STATUS = '{} workers, elapsed time: {:.2f}s' 


def arcfour_test(size, key): 
in_text = bytearray(randrange(256) for i in range(size) ) 
cypher_text = arcfour(key, in_text) 
out_text = arcfour(key, cypher_text) 
assert in_text == out_text, 'Failed arcfour_test' 
return size 


def main(workers=None): 


if workers: 
workers = int(workers) 
tO = time.time() 


with futures.ProcessPoolExecutor(workers) as executor: 
actual_workers = executor. _max_workers 
to_do = [] 
for i in range(JOBS, 0, -1): 
size = SIZE + int(SIZE / JOBS * (i - JOBS/2)) 
job = executor.submit(arcfour_test, size, KEY) 
to_do.append(job) 


for future in futures.as_completed(to_do): 
res = future.result() 
print('{:.1f} KB'.format(res/2**10) ) 


print(STATUS. format(actual_workers, time.time() - t0)) 


if _name__ == '__main_': 
if len(sys.argv) == 2: 
workers = int(sys.argv[1]) 
else: 
workers = None 
main(workers) 


示例 A-8 纯粹 使 用 Python 实现 RC4 加 密 算法 。 


示例 A-8 arcfourpy: 兼容 RC4 的 算法 


wit "兼容 RC4 的 算法 " un 


def arcfour(key, in_bytes, loops=20): 


kbox = bytearray(256) # 创建 存储 键 的 数组 

for i, car in enumerate(key): # 复制 键 和 向 量 
kbox[i] = car 

j = len(key) 

for i in range(j, 256): # 重复 到 底 
kbox[i] = kbox[i-j] 


# [1] 初始 化 sbox 
Sbox = bytearray(range(256) ) 


# 按照 CipherSaber-2 的 建议 ， 不 断 打 乱 sbox 
# http://ciphersaber .gurus.com/faq.html#cs2 
j = 0 
for k in range(loops): 
for i in range(256): 
j = (j + sbox[i] + kbox[i]) % 256 
sbox[i], sbox[j] = sbox[j], sbox[i] 


循环 


th 
Lu 


i=0 
j = 0 
out_bytes = bytearray() 


for car in in_bytes: 
i = (i+ 1) % 256 
# [2] 打 乱 sbox 
j = (j + sbox[i]) % 256 
sbox[i], sbox[j] = sbox[j], sbox[i] 


# [3] 计算 t 
t = (sbox[i] + sbox[j]) % 256 
k = sbox[t] 


car = car ^k 
out_bytes.append(car ) 


return out_bytes 


def test(): 
from time import time 
clear = bytearray(b'1234567890' * 100000) 
tO = time() 
cipher = arcfour(b'key', clear) 
print('elapsed time: %.2fs' % (time() - t0)) 
result = arcfour(b'key', cipher) 


assert result == clear, '%r != %r' % (result, clear) 
print('elapsed time: %.2fs' % (time() - to)) 
print('OK') 

if _name__ == '__main_': 
test() 


示例 A-9 使 用 SHA-256 散 列 算法 打 乱 字 市 数组 。 这 个 脚本 使 用 标准 库 中 的 


hashlib 模块 ， 而 这 个 模块 使 用 C 语言 编写 的 OpenSSL 库 。 


示例 A-9 sha_futures.py: futures .ProcessPoolExecutor 用 法 示 
例 


import sys 

import time 

import hashlib 

from concurrent import futures 
from random import randrange 


JOBS = 12 
SIZE = 2**20 
STATUS = '{} workers, elapsed time: {:.2f}s' 


def sha(size): 


data bytearray(randrange(256) for i in range(size) ) 
algo hashlib.new('sha256' ) 

algo.update(data) 

return algo.hexdigest() 


def main(workers=None): 
if workers: 
workers = int(workers) 
tO = time.time() 
with futures.ProcessPoolExecutor(workers) as executor: 
actual_workers = executor._max_workers 
to_do = (executor.submit(sha, SIZE) for i in range(JOBS) ) 
for future in futures.as_completed(to_do): 
res = future.result() 
print(res) 
print(STATUS. format(actual_workers, time.time() - t0)) 
if _name__ == '__main_': 


if len(sys.argv) == 2: 

workers = int(sys.argv[1]) 
else: 

workers = None 
main(workers) 


A.7 第 17 章 : flags2 系 列 HTTP 客 户 端 示例 


17.5 TH flags2 系列 示例 都 使 用 了 flags2_common.py 模块 ( 见 示 例 A- 


10) 


里 的 函数 。 


示例 A-10 flags2_common.py 


""" 为 后 续 flag 示 例 提供 实用 函数 。 


import os 

import time 

import sys 

import string 

import argparse 

from collections import namedtuple 
from enum import Enum 


Result = namedtuple('Result', 'status data') 


HTTPStatus = Enum('Status', 'ok not_found error') 


POP20 CC = ('CN IN US ID BR PK NG BD RU JP ' 
'MX PH VN ET EG DE IR TR CD FR').split() 


DEFAULT_CONCUR_REQ = 1 
MAX_CONCUR_REQ = 1 


SERVERS = { 
"REMOTE': 'http://flupy.org/data/flags', 
"LOCAL': 'http://localhost:8001/flags', 
'DELAY': 'http://localhost:8002/flags', 
'ERROR': 'http://localhost:8003/flags', 


} 
DEFAULT_SERVER = 'LOCAL' 


DEST_DIR = 'downloads/' 
COUNTRY_CODES_FILE = 'country_codes.txt' 


def save_flag(img, filename): 
path = os.path.join(DEST_DIR, filename) 
with open(path, 'wb') as fp: 
fp.write(img) 


def initial_report(cc_list, actual_req, server_label): 

if len(cc_list) <= 10: 

cc_msg = ', '.join(cc_list) 
else: 

cc_msg = 'from {} to {}'.format(cc_list[0], cc_list[-1]) 
print('{} site: {}'.format(server_label, SERVERS[server_label])) 
msg = 'Searching for {} flag{}: {}' 
plural = 's' if len(cc_list) != 1 else '' 
print(msg.format(len(cc_list), plural, cc_msg)) 
plural = 's' if actual_req != 1 else '' 
msg = '{} concurrent connection{} will be used.' 
print(msg.format(actual_req, plural)) 


def final_report(cc_list, counter, start_time): 

elapsed = time.time() - start_time 

print('-' * 20) 

msg = '{} flag{} downloaded. ' 

plural = 's' if counter[HTTPStatus.ok] != 1 else '' 

print(msg.format(counter[HTTPStatus.ok], plural) ) 

if counter[HTTPStatus.not_found]: 
print(counter[HTTPStatus.not_found], 'not found.') 

if counter[HTTPStatus.error]: 
plural = 's' if counter[HTTPStatus.error] != 1 else 
print('{} error{}.'.format(counter[HTTPStatus.error], plural) ) 

print('Elapsed time: {:.2f}s'.format(elapsed) ) 


def expand_cc_args(every_cc, all_cc, cc_args, limit): 
codes = set() 
A_Z = string.ascii_uppercase 


if every_cc: 
codes.update(at+b for a in AZ for b in AZ) 
elif all_cc: 
with open(COUNTRY_CODES_FILE) as fp: 
text = fp.read() 
codes.update(text.split()) 
else: 
for cc in (c.upper() for c in cc_args): 
if len(cc) == 1 and cc in AZ: 
codes.update(cctc for c in AZ) 
elif len(cc) == 2 and all(c in AZ for c in cc): 
codes.add(cc) 
else: 
msg = ‘each CC argument must be A to Z or AA to ZZ.' 
raise ValueError('*** Usage error: '+msg) 
return sorted(codes)[:limit] 


def process_args(default_concur_req): 
server_options = ', '.join(sorted(SERVERS) ) 
parser = argparse.ArgumentParser ( 
description='Download flags for country codes. ' 
"Default: top 20 countries by population.') 
parser.add_argument('cc', metavar='CC', nargs='*', 
help='country code or ist letter (eg. B for BA...BZ)') 


parser.add_argument('-a', '--all', action='store_true', 
help='get all available flags (AD to ZW)') 
parser.add_argument('-e', '--every', action='store_true', 
help='get flags for every possible code (AA...ZZ)') 
parser.add_argument('-1', '--limit', metavar='N', type=int, 
help='limit to N first codes', default=sys.maxsize) 
parser.add_argument('-m', '--max_req', metavar='CONCURRENT', 
type=int, 


default=default_concur_req, 
help='maximum concurrent requests (default={})' 
. format (default_concur_req) ) 
parser.add_argument('-s', '--server', metavar='LABEL', 
default=DEFAULT_SERVER, 
help='Server to hit; one of {} (default={})' 
.format(server_options, DEFAULT_SERVER) ) 
parser.add_argument('-v', '--verbose', action='store_true', 
help='output detailed progress info') 
args = parser.parse_args() 
if args.max_req < 1: 
print('*** Usage error: --max_req CONCURRENT must be >= 1') 
parser.print_usage() 
sys.exit(1) 
if args.limit < 1: 
print('*** Usage error: --limit N must be >= 1') 
parser.print_usage() 
sys.exit(1) 
args.server = args.server.upper() 
if args.server not in SERVERS: 
print('*** Usage error: --server LABEL must be one of', 
server_options) 


parser.print_usage() 

sys.exit(1) 

try: 
cc_list = expand_cc_args(args.every, args.all, args.cc, 


args.limit) 


def 


except ValueError as exc: 
print(exc.args[0]) 
parser.print_usage() 
sys.exit(1) 

if not cc_list: 
cc_list = sorted(POP20_CC) 

return args, cc_list 


main(download_many, default_concur_req, max_concur_req): 
args, cc_list = process_args(default_concur_req) 
actual_req = min(args.max_req, max_concur_req, len(cc_list) ) 
initial_report(cc_list, actual_reg, args.server) 
base_url = SERVERS[args.server ] 
tO = time.time() 
counter = download_many(cc_list, base_url, args.verbose, actual_req) 
assert sum(counter.values()) == len(cc_list), \ 
‘some downloads are unaccounted for' 
final_report(cc_list, counter, tO) 


flags2_sequential.py 脚本 〈 见 示例 A-11) 是 对 比 两 种 并 发 实现 的 基准 。 
flags2_threadpool.py 脚本 〈 见 示例 17-14) 还 使 用 了 flags2_sequential.py 脚本 
中 的 get_flag 和 download_one 两 个 函数 。 


示例 A-11 flags2_sequential.py 


"7 下 载 多 个 国家 的 国旗 (包含 错误 处 理 代 码 ) 。 


依 序 下 载 版 


wA 


D 


云 行 示例 : : 


$ python3 flags2_sequential.py -s DELAY b 
DELAY site: http://localhost :8002/flags 
Searching for 26 flags: from BA to BZ 

1 concurrent connection will be used. 

17 flags downloaded. 

9 not found. 

Elapsed time: 13.36s 


import collections 


import requests 
import tqdm 


from flags2_common import main, save_flag, HTTPStatus, Result 


DEFAULT_CONCUR_REQ = 1 
MAX_CONCUR_REQ = 1 


# BEGIN FLAGS2_BASIC_HTTP_FUNCTIONS 

def get_flag(base_url, cc): 
url = '{}/{cc}/{cc}.gif'.format(base_url, cc=cc.lower()) 
resp = requests.get(url) 


if resp.status_code != 200: 
resp.raise_for_status() 
return resp.content 


def download_one(cc, base_url, verbose=False): 
try: 
image = get_flag(base_url, cc) 
except requests.exceptions.HTTPError as exc: 
res = exc.response 


if res.status_code == 404: 
status = HTTPStatus.not_found 
msg = ‘not found' 

else: 
raise 


else: 
save_flag(image, cc.lower() + '.gif') 
status = HTTPStatus.ok 
msg = 'OK' 


if verbose: 
print(cc, msg) 


return Result(status, cc) 
# END FLAGS2_BASIC_HTTP_FUNCTIONS 


# BEGIN FLAGS2_DOWNLOAD_MANY_SEQUENTIAL 
def download_many(cc_list, base_url, verbose, max_req): 
counter = collections.Counter() 
cc_iter = sorted(cc_list) 
if not verbose: 
cc_iter = tqdm.tqdm(cc_iter) 
for cc in cc_iter: 
try: 
res = download_one(cc, base_url, verbose) 
except requests.exceptions.HTTPError as exc: 
error_msg = 'HTTP error f{res.status_code} - {res.reason}' 
error_msg = error_msg.format(res=exc.response) 
except requests.exceptions.ConnectionError as exc: 
error_msg = 'Connection error' 
else: 
error_msg = 
status = res.status 


if error_msg: 
status = HTTPStatus.error 
counter[status] += 1 
if verbose and error_msg: 
print('*** Error for {}: {}'.format(cc, error_msg) ) 


return counter 
# END FLAGS2_DOWNLOAD_MANY_SEQUENTIAL 


if _ name__ == ' _main__': 
main(download_many, DEFAULT_CONCUR_REQ, MAX_CONCUR_REQ) 


A.8 第 19 章 : 处 理 OSCON 日 程 表 的 脚本 和 测试 


示例 A-12 是 schedulel.py 模块 (示例 19-9) 的 测试 脚本 ， 使 用 sy ROSE 
和 测试 运行 程序 实现 。 


示例 A-12 test_schedulel.py 


import shelve 
import pytest 


import Schedule1 as schedule 


@pytest.yield_fixture 
def db(): 
with shelve.open(schedule.DB_NAME) as the_db: 
if schedule.CONFERENCE not in the_db: 
schedule. 1load_db(the_db) 
yield the_db 


def test_record_class(): 
rec = schedule.Record(spam=99, eggs=12) 
assert rec.spam == 99 
assert rec.eggs == 12 


def test_conference_record(db): 
assert schedule.CONFERENCE in db 


def test_speaker_record(db): 
speaker = db['speaker.3471'] 
assert speaker.name == 'Anna Martelli Ravenscroft' 


def test_event_record(db): 
event = db['event.33950' ] 


assert event.name == 'There *Will* Be Bugs' 


def test_event_venue(db): 
event = db[ 'event.33950' ] 
assert event.venue_serial == 1449 


5 节 分 四 部 分 列 出 了 schedule2.py 脚本 里 的 代码 ， 示 例 A-13 


示例 A-13 schedule2.py 


schedule2.py: 遍历 0SCON 的 日 程 数据 


>>> import shelve 
>>> db = shelve.open(DB_NAME) 
>>> if CONFERENCE not in db: load_db(db) 


# BEGIN SCHEDULE2_DEMO 


>>> DbRecord.set_db(db) 
>>> event = DbRecord.fetch('event.33950' ) 
>>> event 
<Event 'There *Will* Be Bugs'> 
>>> event.venue 
<DbRecord serial='venue.1449'> 
>>> event.venue.name 
"Portland 251' 
>>> for spkr in event.speakers: 
print('{®.serial}: {0.name}'.format(spkr) ) 


speaker .3471: Anna Martelli Ravenscroft 
speaker.5199: Alex Martelli 


# END SCHEDULE2_DEMO 
>>> db.close() 


# BEGIN SCHEDULE2_ RECORD 
import warnings 

import inspect 

import osconfeed 

DB_NAME = 'data/schedule2_db' 
CONFERENCE = 'conference.115' 


class Record: 


def _ init__(self, **kwargs): 
self.__dict__.update(kwargs) 


def _eq_ (self, other): 
if isinstance(other, Record): 
return self.__dict__ == other.__dict__ 
else: 
return NotImplemented 
# END SCHEDULE2_ RECORD 


# BEGIN SCHEDULE2_DBRECORD 
class MissingDatabaseError(RuntimeError): 
"""Raised when a database is required but was not set.""" 


class DbRecord(Record): 
__db = None 


@staticmethod 
def set_db(db): 
DbRecord. db = db 


@staticmethod 
def get_db(): 
return DbRecord.__db 


@classmethod 
def fetch(cls, ident): 
db = cls.get_db() 
try: 
return db[ident] 
except TypeError: 
if db is None: 
msg = "database not set; call '{}.set_db(my_db)'" 
raise MissingDatabaseError(msg.format(cls.__name_)) 
else: 
raise 


def _repr_ (self): 
if hasattr(self, 'serial'): 
cls_name = self.__class__.__ name_ 
return '<{} serial={!r}>'.format(cls_name, self.serial) 
else: 
return super().__repr__() 
# END SCHEDULE2_DBRECORD 


# BEGIN SCHEDULE2_EVENT 
class Event(DbRecord): 


@property 
def venue(self): 
key = 'venue.{}'.format(self.venue_serial) 


return self.__class__. fetch(key) 


@property 
def speakers(self): 
if not hasattr(self, '_speaker_objs'): 
spkr_serials = self.__dict__['speakers'] 
fetch = self.__class__.fetch 
self._speaker_objs = [fetch('speaker.{}'.format(key) ) 
for key in spkr_serials] 
return self. _speaker_objs 


def _repr_ (self): 
if hasattr(self, 'name'): 
cls_name = self.__class__.__name__ 
return '<{} {!r}>'.format(cls_name, self.name) 
else: 
return super().__repr__() 
# END SCHEDULE2_EVENT 


# BEGIN SCHEDULE2_LOAD 
def load_db(db): 
raw_data = osconfeed.load() 
warnings.warn('loading ' + DB_NAME) 
for collection, rec_list in raw_data['Schedule'].items(): 
record_type = collection[:-1] 
cls_name = record_type.capitalize() 
cls = globals().get(cls_name, DbRecord) 
if inspect.isclass(cls) and issubclass(cls, DbRecord): 
factory = cls 
else: 
factory = DbRecord 
for record in rec_list: 
key = '{}.{}'.format(record_type, record['serial']) 
record['serial'] = key 
db[ key] = factory(**record) 
# END SCHEDULE2_LOAD 


示例 A-14 使 用 py. test 测试 示例 A-13 ° 


示例 A-14  test_schedule2.py 


import shelve 
import pytest 


import schedule2 as schedule 


@pytest.yield_fixture 
def db(): 
with shelve.open(schedule.DB_NAME) as the_db: 
if schedule.CONFERENCE not in the_db: 


schedule. load_db(the_db) 
yield the_db 


def test_record_attr_access(): 
rec = schedule.Record(spam=99, eggs=12) 
assert rec.spam == 99 
assert rec.eggs == 12 


def test_record_repr(): 
rec = schedule.DbRecord(spam=99, eggs=12) 
assert 'DbRecord object at Ox' in repr(rec) 
rec2 = schedule.DbRecord(serial=13) 
assert repr(rec2) == "<DbRecord serial=13>" 


def test_conference_record(db): 
assert schedule.CONFERENCE in db 


def test_speaker_record(db): 
speaker = db['speaker.3471'] 
assert speaker.name == 'Anna Martelli Ravenscroft' 


def test_missing_db_exception(): 
with pytest.raises(schedule.MissingDatabaseError): 
schedule. DbRecord.fetch( 'venue.1585' ) 


def test_dbrecord(db): 
schedule. DbRecord.set_db(db) 
venue = schedule.DbRecord.fetch( 'venue.1585' ) 
assert venue.name == 'Exhibit Hall B' 


def test_event_record(db): 
event = db['event.33950' ] 
assert repr(event) == "<Event 'There *Will* Be Bugs'>" 


def test_event_venue(db): 
schedule.Event.set_db(db) 
event = db['event.33950' ] 


assert event.venue_serial == 1449 
assert event.venue == db['venue.1449' | 
assert event.venue.name == ‘Portland 251' 


def test_event_speakers(db): 
schedule.Event.set_db(db) 
event = db['event.33950' ] 
assert len(event.speakers) == 
anna_and_alex = [db['speaker.3471'], db['speaker.5199']] 


assert event.speakers == anna_and_alex 


def test_event_no_speakers(db): 
schedule.Event.set_db(db) 
event = db['event.36848' ] 
assert len(event.speakers) == 


Python 术语 表 

当然 ， 这 里 列 出 的 很 多 术语 不 是 Python 专用 的 ， 不 过 某 些 术语 的 定义 对 
Python 社区 有 特殊 的 意义 。 

此 外 ， 也 可 以 参阅 官方 的 Python 词汇 表 。 

ABC (编程 语言 ) 


Leo Geurts、Lambert Meertens 和 Steven Pemberton 创造 的 一 门 编程 语 
言 。20 世纪 80 年 代 ，Python 之 父 Guido van Rossum 是 实现 ABC 环境 的 程 
序 员 。Python 的 一 些 特色 出 自 例如 使 用 缩 进 划分 块 、 内 置 元 组 和 字 
典 、 元 组 拆 包 、for 循环 的 语义 ， 以 及 对 所 有 序列 类 型 的 统一 处 理 方 式 。 


BDFL 


Benevolent Dictator For Life 的 简称 ， 意 为 “仁慈 的 独裁 者 ”， 指 代 Python 
之 父 Guido van Rossum 。 


BOM 


Byte Order Mark 的 简称 ， 意 为 “ 字 厄 序 标记 ”， 指 可 能 出 现在 UTF-16 编 
码 文件 开头 的 字 节 序列 。BOM 是 U+FEFF 字符 ( 零 宽 不 换行 空格 ) ， 在 大 
字 节 序 的 CPU 中 ， 编 码 成 b'\xfe\xff'; 在 小 字 节 序 的 CPU 中 ， 编 码 成 
b'\xff\xfe'。 因 为 Unicode 中 没有 U+FFFE 字符 ， 所 以 这 些 字 节 的 作用 
只 有 一 个 一 一 表示 编码 方式 使 用 的 字 节 序 。 虽 然 多 余 ， 但 是 在 UTF-8 文件 中 
可 能 会 找到 编码 成 b'\xef\xbb\xbf' 的 BOM。 


CPython 


标准 的 Python 解释 器 ， 使 用 C 语言 实现 。 讨 论 不 同 实现 特有 的 行为 ， 
以 及 多 个 可 用 的 Python 解释 右 (如 PyPy) 时 才 会 使 用 这 个 术语 。 


CRUD 


Create ` Read ` Update ` Delete 的 首 字 母 缩写 ， 这 是 存储 记录 的 应 用 程 
序 中 的 四 种 基本 操作 。 


doctest 


一 个 模块 ， 其 中 的 函数 能 解析 并 运行 Python 模块 或 纯 文 本 文件 的 文档 字 
符 串 中 内 内 的 示例 。 也 可 以 在 命令 行 中 使 用 ， 如 下 所 示 : 


python -m doctest module_with_tests.py 


DRY 


Don't Repeat Yourself (不 要 自我 重复 ) 的 缩写 ， 一 种 软件 工程 原则 ， 意 
思 是 : “系统 中 的 每 一 项 知识 都 必须 具有 单一 、 无 层 义 、 权 威 的 表示 。” 首 移 
由 Andy Hunt 与 Dave Thomas 的 《程序 员 修炼 之 道 : 从 小 工 到 专家 》 一 书 提 


dunder 


首尾 有 两 条 下 划 线 的 特殊 方法 和 属性 的 简洁 读 法 ( 即 把 _ len 读 
成 “dunder len”) 。 


dunder 方法 
参见 dunder 和 特殊 方法 词 条 。 


EAFP 


“it's easier to ask forgiveness than permission” (取得 原谅 比 获得 许可 容 
易 ) 的 首 字母 缩写 。 人 们 认为 这 句 话 是 计算 机 先驱 Grace Hopper 说 的 ， 
Python 程序 员 使 用 这 个 缩写 指 代 一 种 动态 编程 方式 ， 例 如 访问 属性 前 不 测试 
有 没有 属性 ， 如 果 没 有 就 捕获 异常 。hasattr 函数 的 文档 字符 串 是 这 样 描 
述 它 的 工作 方式 的 : “调用 getattr(object，name)， 然 后 捕获 
AttributeError 异常 。” 


genexp 

generator expression (生成 器 表达 式 ) 的 简称 。 
GoF 书 

指 代 《设计 模式 : 可 复 用 面向 对 象 软件 的 基础 》 一 书 ， 作 者 是 四 个 人 ， 
被 称 为 "四 人 组 ”Gang of Four, GoF) ， 包 括 Erich Gamma ` Richard 
Helm ` Ralph Johnson 和 John Vlissides ° 


KISS 原则 


KISS 是 “Keep It Simple, Stupid” 的 首 字母 缩写 。 这 个 原则 要 求 尽量 寻找 
最 简单 的 方案 ， 尽 量 减 少 可 变 部 分 。 这 个 警句 是 Kelly Johnson 首创 的 。 
Kelly 是 一 位 多 才 多 艺 的 航空 工程 师 ， 在 真实 存在 的 51 区 工作 ， 设 计 出 了 20 
世纪 最 先进 的 几 架 航天 飞机 。 


listcomp 


list comprehension (列表 推导 ) 的 简称 。 
ORM 


Object-Relational Mapper (SRK AB aS) 的 缩写 ， 通 过 这 种 API 可 
以 使 用 Python 类 和 对 象 访 问 数据 库 中 的 表 和 记录 ， 而 且 调 用 方法 可 以 执行 数 
据 库 操 作 。SQLAlchemy 是 流行 的 独立 Python ORM, Django 和 Web2py 自 
带 了 ORM ° 


PyPI 


Python 包 索 引 ， 里 面 有 超过 60 000 个 包 可 用 。 也 叫 奶 酷 店 〈 参 见 奶 栈 店 
词 条 ) 。 为 了 防止 与 PyPy 混淆 ，PyPI 应 该 读 作 “pie-P-eye”。 


PyPy 


Python 编程 语言 的 另 一 种 实现 ， 使 用 一 个 工具 链 把 部 分 Python 编译 成 
机 器 码 ， 因 此 解释 器 的 源码 其 实 古 使 用 Python 编写 的 。PyPy 还 提供 了 JIT， 
即时 把 用 户 的 程序 编译 成 机 器 码 一 一 与 Java VM 的 作用 相同 。 根 据 PyPy 公 
布 的 基准 测试 ， 从 2014 年 11 月 起 ，PyPy 平均 比 CPython 快 6.8 倍 。 为 了 防 
止 与 PyPI 混淆 ，PyPy 应 该 读 作 “pie-pie”。 


Pythonic 

ATARFE Python 风格 的 代码 ， 即 充分 利用 Python 语言 的 特性 ， 写 
出 简洁 明了 、 可 读 性 强 ， 通 常 运 行 速度 也 快 的 代码 。 还 指 API 符合 Python 
高 手 的 编程 方式 。 参 见 惯 用 句法 词 条 。 
Python 之 禅 


从 Python 2.2 起 ， 在 Python 控制 台中 输入 import this 后 看 到 的 输 


REPL 


read-eval-print loop 〈 读 取 一 求 值 一 输出 循环 ) 的 简称 ， 一 种 交互 式 控制 
台 ， 如 标准 的 python 或 非 主 流 的 ipython 和 bpython， 以 及 Python 
Anywhere。 


YAGNI 


You Ain't Gonna Need It (你 不 需要 这 个 ) 的 首 字母 缩写 ， 这 个 口号 的 意 
思 是 ， 根 据 对 未 来 需求 的 预测 ， 不 要 实现 非 立 即 需要 的 功能 。 


绑 定 方法 (bound method) 

通过 实例 访问 的 方法 会 绑 定 到 那个 实例 上 。 方 法 其 实 是 描述 符 ， 访 问 方 
法 时 ， 会 返回 一 个 包装 上 自身 的 对 象 ， 把 方法 绑 定 到 实例 上 。 那 个 对 象 就 是 绑 
定 方法 。 调 用 绑 定 方法 时 ， 可 以 不 传 入 self 的 值 。 例 如 ， 像 my_method 
= my_obj.method 这 样 赋值 之 后 ， 可 以 通过 my_method( ) 调用 绑 定 方 
法 。 请 与 非 绑 定 方法 相 比较 。 
编码 解码 器 (codec) 

(编码 器 / 解码 器 ) TERA AHR, EE str 和 bytes 
之 间 转 换 ， 不 过 Python 也 提供 了 在 bytes All bytes, LAM str F str 之 
间 转 换 的 编码 解码 器 。 

变 值 方 法 (mutator) 

参见 存 取 方法 词 条 。 
别名 (aliasing) 

为 同一 个 对 象 指定 两 个 或 多 个 名 称 。 例 如 , 在 a = []; b= a 中 , a 
Alb 是 别名 ， 指 向 同一 个 列表 对 象 。 对 于 把 对 象 引 用 存储 在 变量 中 的 语言 来 
说 ， 别 名 无 处 不 在 。 为 了 避免 混淆 ， 要 握 弃 这 种 想法 变量 是 存储 对 象 的 盒 
FT (毕竟 同一 个 对 象 不 可 能 放 在 两 个 盒子 里 ) 。 我们 要 把 变量 看 做 对 象 的 标 
TE (一 个 对 象 可 以 有 多 个 标注 ) 。 

并 行 赋值 (parallel assignment) 


使 用 类 似 a，b = [c, d] 这 样 的 句法 ， 把 可 和 迭代 对 象 中 的 元 素 赋 值 给 
多 个 变量 ， 也 叫 解构 赋值 。 这 是 元 组 拆 包 的 常见 用 途 。 


抽象 基 类 (abstract base class, ABC) 


无 法 实例 化 ， 只 能 扩展 的 类 。 Python 通过 ABC 实现 接口 。 除了 继承 
ABC 之 外 ， 类 还 可 以 注册 成 为 ABC 的 虚拟 子 类 ， 声 明 自 己 实 现 了 接口 。 


初始 化 方法 (initializer) 

init 方法 更 贴切 的 名 称 (取代 构造 方法 。 init_ ”方法 的 任 
务 是 初始 化 通过 self 参数 传 入 的 实例 。 实 例 其 实 是 由 __new__ 方法 构建 
的 。 参 见 构造 方法 词 条 。 
储存 属性 (storage attribute) 

托管 实例 中 的 属性 ， 用 于 存储 由 描述 符 管理 的 属性 的 值 。 另 见 托管 属性 


词 条 。 
存 取 方 法 (accessor) 

用 于 存 取 单个 数据 属 性 的 方法 o 有 些 作者 把 存 取 方法 当 作 通 用 术语 使 
用 ,包括 读 值 方法 和 设 值 方法 ;， 男 一 些 作者 则 用 存 取 方 法 指 代 读 值 方法 ， 而 
用 变 值 方 法 指 代 设 值 方法 。 
代码 异味 (code smell) 

一 种 代码 形式 ， 表 明 程 序 的 设计 可 能 有 问题 。 例 如 ， 过 度 使 用 
isinstance 检查 具体 的 类 是 一 种 代码 异味 ， 因 为 这 样 会 导致 程序 以 后 难以 
扩展 ， 无 法 处 理 新 类 型 。 

单 例 (singleton) 
一 个 类 唯一 存在 的 实例 一 一 这 通常 不 是 巧合 ， 而 是 故意 为 之 ， 防 止 类 创 
多 个 实例 。 有 一 种 设计 模式 就 叫 单 例 模式 ， 指 明 如 何 编 写 这 样 的 类 。 在 
Python F, None 对 象 是 单 例 。 
导入 时 (import time) 

Python 解释 器 加 载 模 块 ， 从 上 到 下 计算 ， 把 里 面 的 代码 编译 成 字 届 码 之 
后 ， 开 始 执行 模块 的 那 一 刻 。 类 和 函数 在 此 时 定义 ， 变 成 真实 存在 的 对 象 。 
装饰 器 也 在 此 时 执行 。 
迭代 器 (iterator) 


实现 了 无 参数 方法 __next__ 的 对 象 ， 这 个 方法 返回 级 数 里 的 下 一 个 元 
素 ， 如 果 没 有 元 素 了 就 抛 出 StopIteration 异常 。 在 Python 中 ， 和 迭代 器 


还 实现 了 iter_ 方法， 因此 迭代 器 也 是 可 迭代 的 对 象 。 根 据 最 初 的 设计 
模式 ， 经 典 迭 代 器 返回 集合 里 的 元 素 。 生 成 器 也 是 迭代 器 ， 不 过 更 灵活 。 参 
见 生 成 器 词 条 。 
惰性 求 值 (lazy) 


指 可 迭代 的 对 象 按 需 生 成 元 素 。 在 Python 中 ， 生 成 右 会 惰性 求 值 。 请 与 
及 早 求 值 相 比较 。 


二 进 制 序列 (binary sequence) 


一 个 通用 术语 ， 表 示 元 素 是 二 进 制 数据 的 序列 类 型 。 内 置 的 二 进 制 序列 
类 型 有 byte、bytearray 和 memoryview。 


ZKR (generic function) 

以 不 同 的 方式 为 不 同类 型 的 对 象 实现 相同 操作 的 一 组 函数 。 从 Python 
3.4 起 ， 创 建 泛 函 数 的 标准 方式 是 使 用 functools.singledispatch 装 
饰 器 。 在 其 他 语言 中 ， 这 叫 多 分 派 方法 。 

非 绑 定 方法 (unbound method) 

直接 通过 类 访问 的 实例 方法 没有 绑 定 到 特定 的 实例 上 ， 因 此 把 这 种 方法 
称 为 “ 非 绑 定 方法 ”。 若 想 成 功 调 用 非 绑 定 方法 ， 必 须 显 式 传 入 类 的 实例 作为 
第 一 个 参数 。 那 个 实例 会 赋值 给 方法 的 self 参数 。 人 参见 绑 定 方法 词 条 。 

非 覆 盖 型 描述 符 (nonoverriding descriptor) 

未 实现 _ set ”方法 的 描述 符 ， 不 干涉 托管 实例 中 托管 属性 的 设置 。 
因此 ， 托 管 实例 中 的 同名 属性 会 遮盖 实例 中 的 描述 符 。 也 叫 非 数据 描述 符 或 
遮盖 型 描述 符 。 请 与 覆盖 型 描述 符 相 比较 。 
覆盖 型 描述 符 (overriding descriptor) 

实现 了 __set__ 方法 的 描述 符 ， 设 置 托管 实例 中 的 托管 属性 时 会 遭 到 
拦截 并 和 覆盖 相关 操作 。 也 叫 数据 描述 符 或 强制 描述 符 。 请 与 非 履 盖 型 描述 符 
相 比 较 。 

高 阶 画 数 (higher-order function) 


以 其 他 函数 为 参数 的 函数 ， 例 如 sorted、map 和 filter; 或 者 ， 返 
回 值 为 函数 的 函数 ， 例 如 Python 中 的 装饰 器 。 


构造 方法 (constructor) 


EAN init_ _ 实例 方法 称 为 类 的 构造 方法 ， 因 为 这 个 方法 的 语义 类 似 
于 Java 中 的 构造 方法 。 然 而 ， 这 样 称呼 并 不 规范 ，_ init 更 应 该 称 为 初 
始 化 方法 ， 因 为 它 并 不 会 构建 实例 ， 而 是 把 实例 传 给 self 参数 。Python 
ie = 方法 之 前 调用 的 __new__ 类 方法 更 合乎 构造 方法 这 个 术语 ， 
_ 方法 才 会 创建 实例 并 将 其 返回 。 参 见 初始 化 方法 词 条 。 


惯用 句法 (idiom) 


m WordNet 字典 的 定义 ， 惯 用 句法 指 “说 母语 的 人 说 话 
S TL” © 


函数 (function) 

严格 来 说 ， 是 指 def REY lambda 表达 式 计 算得 到 的 对 象 。 通 常 ， 画 
数 这 个 词 用 于 表示 任何 可 调用 的 对 象 ， 例 如 方法 ， 有 时 甚至 表示 类 。 
档 中 的 内 置 函 数列 表 列 出 了 几 个 内 置 的 类 ， 例 如 dict、range fl str ° 
见 可 调用 的 对 象 词 条 。 
猴子 补丁 (monkey patching) 

在 运行 时 动态 修改 模块 、 类 或 贸 数 ， 通 常 是 添加 功能 或 修正 缺陷 。 猴 子 
补丁 在 内 存 中 发 挥 作用 ， 不 会 修改 源码 ， 因 此 只 对 当前 运行 的 程序 实例 有 
效 。 因 为 猴子 补丁 破坏 了 封装 ， 而 且 容 易 导 致 程序 与 补丁 代码 的 实现 细节 紧 
密 耦 合 ， 所 以 被 视 为 临时 的 变通 方案 ， 不 是 集成 代码 的 推荐 方式 。 
混入 方法 (mixin method) 

抽象 基 类 或 混入 类 中 方法 的 具体 实现 。 
混入 类 (mixin class) 


用 于 随 着 多 重 继承 类 树 中 的 一 个 或 多 个 类 一 起 扩展 的 类 。 混 入 类 绝 不 能 
实例 化 ， 它 的 具体 子 类 也 应 该 是 其 他 非 混 入 类 的 子 类 。 


活性 (liveness) 
异步 系统 、 线 程 系统 或 分 布 式 系统 在 : 期待 的 事情 终于 发 生 ”( 即 虽然 期 


TADS 并 即 发 生 ， BRRR i) 时 展现 出 来 的 特性 叫 活 性 。 如 有 果 系 


及 早 求 值 (eager) 


指 可 迭代 对 象 一 次 构建 好 全 部 元 素 。 在 Python 中 ， 列 表 推 导 会 及 早 求 
值 。 请 与 惰性 求 值 相 比 较 。 


集合 (collection) 


泛 指 由 元 素 组 成 ， 可 以 单独 访问 各 个 元 素 的 数据 结构 。 有 些 集合 可 以 包 
含 任意 类 型 的 对 象 (参见 容器 词 条 ) ， 有 些 则 只 能 包含 一 种 原子 类 型 的 对 象 
(参见 平坦 序列 词 条 ) 。1ist M bytes 都 是 集合 ， 只 不 过 list ZAR, 
而 bytes 是 平坦 序列 。 


假 值 (falsy) 


A bool(x) 返回 False, x 就 是 假 值 。 需 要 布尔 值 时 ，Python ABS 
式 使 用 bool 计算 对 象 ， 例 如 控制 if 和 while 循环 的 表达 式 。 与 此 相对 的 
是 真 值 (truthy) ° 


尽早 失败 (fail-fast) 


一 种 系统 设计 方式 ， 建 议 应 该 尽早 报告 错误 。Python 比 其 他 大 多 数 动 态 
编程 语言 更 遵守 这 一 原则 。 例 如 ，Python 中 没有 “未 定义 ”的 值 ， 在 初始 化 之 
前 引用 变量 会 报错 如果 k 不 存在 ，my_dict[k] 会 抛 出 异常 (JavaScript 
则 不 然 ) 。 还 有 一 例 : 在 Python 中 通过 元 组 拆 包 做 并 行 赋值 ， 必 须 显 式 处 理 
元 组 的 每 一 个 元 素 才 行 ; 而 在 Ruby F, WR = 两 边 的 元 素数 量 不 一 致 ， 右 
边 未 用 到 的 元 素 会 被 忽略 ， 或 者 把 nil 赋 给 左边 多 余 的 变量 。 


可 迭代 的 (iterable) 

使 用 内 置 的 iter 函数 可 以 从 中 获得 迭代 器 的 对 象 。 可 迭代 的 对 象 为 
for 循环 、 列 表 推 导 和 元 组 拆 包 提供 元 素 。 如 果 对 象 的 _ iter_ ”方法 能 
返回 迭代 器 ， 这 就 是 可 迭代 的 对 象 。 序 列 都 是 可 迭代 的 对 象 ， 此 外 ， 实 现 
getitem_ 方法 的 对 象 也 是 可 迭代 的 对 象 。 

可 迭代 对 象 的 拆 包 (iterable unpacking) 

元 组 拆 包 更 现代 、 更 精确 的 同义词 。 另 见 并 行 赋值 词 条 。 

可 散 列 的 (hashable) 


在 散 列 值 永 不 改变 ， 而 且 如 果 a == b, 那么 hash(a) == hash(b) 
也 是 True 的 情况 下 ， 如 果 对 象 几 有 hash__ 方法， 也 有 _ eq_ 方法 ， 


ag 


那么 这 样 的 对 象 称 为 可 散 列 的 对 象 。 在 内 置 的 类 型 中 ， 大 多 数 不 可 变 的 类 型 
部 是 可 散 列 的 ， 但 是 ， 仅 当 元 组 的 每 一 个 元 素 帮 是 可 散 列 的 时 ， 元 组 才 是 可 
散 列 的 。 


可 调用 的 对 象 (callable object) 


可 以 使 用 调用 运算 符 ( ) 调用 ， 能 返回 结果 或 执行 某 项 操作 的 对 象 。 在 
Python 中 ， 可 调用 的 对 象 有 七 种 : 用 户 定 义 的 函数 、 内 置 的 函数 、 内 置 的 方 
法 、 实 例 方 法 、 生 成 器 函数 、 类 ， 还 有 实现 特殊 方法 __call__ 的 类 的 实 
pis 


类 (class) 


定义 新 类 型 的 程序 结构 ， 里 面 有 数据 属性 ， 以 及 用 于 操作 数据 属性 的 方 
法 。 参 见 类 型 词 条 。 


类 型 (type) 


程序 中 的 各 种 数据 ， 限 定 可 取 的 值 和 可 对 数据 做 的 操作 。 有 些 Python 类 
型 近似 于 机 器 数据 类 型 (例如 float M bytes) ， 而 另 一 些 则 是 机 器 数据 
类 型 的 扩展 (例如 ，int 不 受 CPU 字 长 的 限制 ，str 包含 多 字 节 Unicode 
数据 码 位 ) 和 特别 高 层 的 抽象 (例如 dict、deque， 等 等 ) 。 类 型 分 为 两 
用 户 定义 的 类 型 和 解释 器 内 置 的 类 型 。 在 Python 2.2 统一 类 型 和 类 之 

， 类 型 和 类 是 不 同 的 实体 ， 用 户 定义 的 类 不 能 扩展 内 置 的 类 型 。 而 在 那 之 

内 置 的 类 型 和 新 式 类 兼容 了 ， 类 是 type 的 实例 。 在 Python 3 中 ， 所 有 
cing gts o e 


列表 推导 (list comprehension) 


放 和 在 方 括号 里 的 表达 式 ， 使 用 关键 字 for 和 ijn， 通 过 处 理 和 过 滤 一 个 
A 列表 推导 会 及 早 求 值 。 参 见 及 早 求 值 
ji 


码 位 (code point) 


介 于 0~0x10FFFF 之 间 的 整数 ， 用 于 标识 Unicode 字符 数据 库 中 的 字 
和 从。 截至 Unicode 7.0， 所 有 码 位 中 只 有 不 到 3% 指定 了 字符 。 在 Python 文档 
中 ， 这 个 术语 可 能 拼 成 一 个 词 ， 也 可 能 拼 成 两 个 词 。 例 如 ， 在 = Python * 标准 库 
参考 手册 的 “2. Built-in Functions” 一 章 中 ， 说 char 函数 的 参数 是 一 个 整 
数 “ 码 位 ” (codepoint) ， 却 说 作用 相反 的 ord 函数 返回 一 个 “Unicode 码 


fiz” (Unicode code point) o 


描述 符 (descriptor) 

一 个 类 , 实现 get 、 ”set 和 delete _ 特殊 方法 中 的 一 
个 或 多 个 ， 其 实例 作为 另 一 个 类 (托管 类 ) 的 类 属性 。 描 述 符 管理 托管 类 中 
托管 属性 的 存 取 和 删除 ， 数 据 通 常 存储 在 托管 实例 中 。 

名 称 改 写 (name mangling) 

Python 解释 噩 在 运行 时 目 动 把 私有 属性 x 重 命名 为 _MyClass _ x。 
魔术 方法 (masgic method) 

同 特殊 方法 。 
奶酪 店 (Cheese Shop) 

Python 包 索 引 (Python Package Index, PyPI, 
https://pypi.python.org/pypi) 原来 的 名 称 ， 以 “ 巨 蟒 剧 团 ” 表 演 的 幽默 短 剧 《 奶 


酷 店 》 命 名 。 虽 然 是 奶酪 店 ， 但 是 店 里 却 什 么 奶酪 都 没有 。 写 作 本 书 时 ， 
https://cheeseshop.python.org 这 个 别名 链接 还 有 效 。 参 见 PyPI 词 条 。 


ABE (built-in function, BIF) 


随 Python 解释 种 一 起 提供 的 范 数 ， 使 用 底层 实现 语言 (也 就 是 说 ， 
CPython 用 C 语言 ，Jython 用 Java， 以 此 类 推 编写 。 这 个 术语 通常 指 代 无 
就 能 使 用 的 函数 ， 参 见 Python 标准 库 参 考 手册 中 的 “2. Built-in 
Functions” 一 章 。 不 过 ， 内 置 的 模块 (如 sys、math、re 等 ) 也 包含 内 置 画 

ay o 


平坦 序列 (flat sequence) 

这 种 序列 类 型 存储 的 是 元 素 的 值 本 身 ， 而 不 是 其 他 对 象 的 引用 。 内 置 的 
类 型 中 ， str、bytes、bytearray、memoryview 和 array,array 是 
平坦 序列 ; ides tuple Ñ collections.deque 是 容器 序列 。 参 见 
容器 词 条 


浅 复制 (shallow copy) 


一 种 对 象 副本 ， 引 用 源 对 象 的 全 部 属性 对 象 。 请 与 深 复制 相 比较 。 另 见 
别名 词 条 。 


强 引用 (strong reference) 


让 对 象 始 终 存在 于 Python 中 的 引用 。 请 与 弱 引 用 相 比较 。 
切片 (slicing) 

使 用 切片 表示 法 生成 序列 的 子 集 ， 例 如 my_sedquence[2:6]。 切 片 经 
常 复制 数据 ， 生 成 新 对 象 ， 然 而 ，my_sequence[ : ] 是 对 整个 序列 的 浅 复 
制 。 不 过 ，memoryview 对 象 的 切片 虽 是 一 个 memoryVview 新 对 象 ， 但 会 
与 源 对 象 共享 数据 。 


容器 (container) 


包含 其 他 对 象 引用 的 对 象 。Python 中 的 大 多 数 集合 类 型 都 是 容器 ， 不 过 
有 些 不 是 。 请 与 平坦 序列 相 比较 ， 这 种 序列 是 集合 ， 但 不 是 容器 。 


弱 引 用 (weak reference) 


一 种 特殊 的 对 象 引 用 方式 ， 不 计 入 指示 对 象 的 引用 计数 。 弱 引用 使 用 
weakref 模块 里 的 某 个 函数 和 数据 结构 创建 。 


上 下 文 管 理 器 (context manager) 
实现 了 _ enter 和 _ exit _ 特殊 方法 的 对 象 ， 在 with 块 中 使 


用 
蛇 底 式 (snake_case) 


标识 符 的 一 种 命名 约定 ， 使 用 下 划 线 (_) 连接 单词 ， 例 如 
run_until_complete ° PEP-8 把 这 种 风格 称 为 “使 用 下 划 线 分 隔 的 小 写 单 
词 "， 建 议 用 于 命名 范 数 、 方 法 、 参 数 和 变量 。PEP-8 建议 包 名 直接 把 各 个 单 
词 拼 接 起 来 ， 不 使 用 分 隔 符 。Python 标准 库 中 有 很 多 使 用 蛇 底 式 命名 的 标识 
符 ， 不 过 也 有 单词 之 间 没 有 分 隔 的 标识 符 (例如 ，getattr 


classmethod、isinstance、str,endswith， 等 等 ) 。 人 参见 驼 峰 式 词 
Zo 
FIN 


深 复 制 (deep copy) 
复制 对 象 时 把 对 象 的 所 有 属性 一 起 复制 。 请 与 浅 复 制 相 比 较 。 
生成 器 (generator) 


fE H E ica BN EE Ba EIA TOMEI (Cae, EARRAN] BE 
成 值 。 HE BSE ANSE AYE Bae SAYS il, ECAR), TER 


合 中 绝对 放 不 下 。 这 个 术语 除了 表示 调用 生成 事 函 数 得 到 的 对 象 之 外 ， 有 时 
还 表示 生成 器 函数 。 


生成 器 表达 式 (generator expression ) 
放 在 括号 里 的 表达 式 ， 句 法 与 列表 推导 一 样 ， 不 过 返回 的 不 是 列表 ， 而 
是 生成 器 o 生成 器 表达 式 可 以 理解 为 列表 推导 的 惰性 版 本 。 参 见 情 性 求 值 词 


AN 


生成 器 函数 (generator function) 
定义 体 中 有 yield 关键 字 的 函数 。 调 用 生成 器 函数 得 到 的 是 生成 器 。 
实 参 (argument) 


调用 函数 时 传 给 函数 的 表达 式 。 按 照 Python 习惯 的 说 法 ， 实 参 和 形 参 几 
平等 价 。 关 于 二 者 的 区 别 以 及 各 自 的 用 途 ， 参 见 形 参 词 条 。 


视图 (view) 


在 Python 3 中 ， 视 图 是 一 种 特殊 的 数据 结构 ， 由 字典 的 
.keys() ` .values() 和 .items() 方法 返回 ， 作 用 是 在 不 重复 数据 的 前 
提 下 ， 提 供 字 典 的 键 和 值 的 动态 视图 。 在 Python 2 中 ， 那 些 方法 返回 的 是 列 
表 。 字 典 视 图 都 是 可 迭代 的 对 象 ， 支 持 in 运算 符 。 此 外 ， 如 果 视 图 引用 的 
元 素 都 是 可 散 列 的 对 象 ， 那 么 视图 还 实现 了 collections.abc.Set 接 
O ° .keys() 方法 返回 的 视图 都 是 这 样 ， 对 .items( ) 方法 返回 的 视图 来 
说 ， 如 果 其 中 的 值 都 是 可 散 列 的 对 象 ， 那 么 也 是 如 此 。 


视 为 有 害 (considered harmful) 


Edsger Dijkstra 写 过 一 封 题 为 “Go To Statement Considered Harmful”* 的 信 
函 ， 这 为 批评 计算 机 科学 技术 的 文章 提供 了 一 种 标题 格式 。 维 基 百 科 中 
的 “Considered harmful” 一 文 列 出 了 很 多 这 种 文章 ， 包 括 Eric A. Meyer 写 
的 “Considered Harmful Essays Considered Harmful” ° 


属性 (attribute) 


在 Python 中 ， 方 法 和 数据 属性 (BU Java 术语 中 的 “字段 ”) 都 是 属性 。 
方法 也 是 属性 ， 只 不 过 恰好 是 可 调用 的 对 象 〈 通 常 是 函数 ， 但 也 不 一 定 ) 。 


特殊 方法 (special method) 


名 称 特殊 的 方法 ， 首 尾 各 有 两 条 下 划 线 ， 例 如 getitem_ ° Python 
中 的 特殊 方法 几乎 都 在 Python 语言 参考 手册 中 的 “3. Data model” 一 章 做 了 说 
明 ， 不 过 在 特定 上 下 文中 使 用 的 个 别 特殊 方法 在 文档 的 其 他 部 分 里 说 明 。 例 
a, BRAY missing 方法 在 Python 标准 库 文档 的 “4.10. Mapping 
Types” — T HEF ° 


统一 访问 原则 (uniform access principle) 

Eiffel 语言 之 父 Bertrand Meyer Sid: “不 管 服务 是 由 存储 还 是 计算 实现 
的 ， 一 个 模块 提供 的 所 有 服务 都 应 该 通过 统一 的 方式 使 用 。” 在 Python 中 ， 
可 以 使 用 特性 和 描述 符 实 现 统一 访问 原则 。 由 于 没有 new 运算 符 ， 函 数 调 用 
和 对 象 实例 化 看 起 来 相似 ， 这 也 体现 了 这 一 原则 : 调用 方 无 需 知道 被 调用 的 
对 象 是 类 、 男 数 ， 还 是 其 他 可 调用 的 对 象 。 
托管 类 (managed class) 

使 用 描述 符 对 象 管理 类 中 某 个 属性 的 类 。 参 见 描述 符 词 条 。 
托管 实例 (managed instance) 

托管 类 的 实例 。 参 见 托管 属性 和 描述 符 词 条 。 
托管 属性 (managed attribute) 

由 描述 符 对 象 管理 的 公开 属性 。 虽 然 托管 属性 在 托管 类 中 定义 ， 但 是 作 
用 相当 于 实例 属性 ( 即 各 个 实例 通常 有 各 自 的 值 ， 存 储 在 储存 属性 中 ) 。 参 
见 描述 符 词 条 。 
驼峰 式 (CamelCase) 

标识 符 的 一 种 命名 约定 ， 单 词 的 首 字母 大 写 ， 然 后 连接 起 来 (例如 
Connection RefusedError) 。PEP-8 建议 类 名 使 用 驼峰 式 ， 但 是 
Python 标准 库 没有 遵守 这 个 建议 。 参 见 蛇 底 式 词 条 。 
文档 字符 串 (docstring) 

documentation string 的 简称 。 如 果 模 块 、 类 或 函数 的 第 一 个 语句 是 字符 
串 字 面 量 ， 那 个 字符 串 会 当 作 所 在 对 象 的 文档 字符 串 ， 解 释 器 把 那个 字符 串 
存储 在 对 象 的 _ doc__ 属性 中 。 另 见 doctest 词 条 。 


WIE (wart) 


指 Python 语言 的 不 足 。 Andrew Kuchling 发 表 过 一 篇 著名 的 文章 
“Python warts”， 仁 慈 的 独裁 者 承认 ， 他 在 设计 Python 3 的 过 程 中 受 此 文 
影响 ， 决 定 不 向 后 兼容 ， 否 则 无 法 修正 大 多 数 缺 陷 。Kuchling 提 到 的 多 数 问 
题 在 Python 3 FIET ° 


像 文件 的 对 象 (file-like object) 


官方 文档 使 用 的 一 个 非 正式 称呼 ， 指 代 实 现 了 文件 协议 的 对 象 ， 有 
read、write 和 close 等 方法 。 常 见 的 变 体 有 : 逐 行 读 写 ， 包 含 编 码 字符 
串 的 纯 文 本 文件 ， 作 为 保存 在 内 存 中 的 纯 文 本 文件 的 StringI0 实例 ， 包 含 
未 编码 的 字 节 的 二 进 制 文件 。 最 后 一 种 可 能 有 缓冲 ， 也 可 能 没有 缓冲 。 从 
Python 2.6 起 ， 这 些 标准 文件 类 型 的 抽象 基 类 在 io 模块 里 。 


像 字 节 的 对 象 (bytes-like object) 


泛 指 字 节 序列 。 最 常见 的 像 字 节 的 类 型 有 bytes、bytearray 和 
memoryview; 不 过 ， 支 持 低层 CPython 缓冲 协议 的 对 象 ， 如 果 元 素 是 单个 
字 节 ， 那 么 也 属于 此 类 。 


协 程 (coroutine) 


用 于 并 发 编程 的 生成 器 ， 从 调度 程序 ， 或 者 通过 coro.send(value) 
方法 从 事件 循环 中 接收 值 。 这 个 术语 可 以 表示 通过 调用 生成 器 函数 获得 的 生 
成 器 函数 或 生成 器 对 象 。 参 见 生成 器 词 条 。 


形 参 (parameter) 


声明 函数 时 指定 的 零 个 或 多 个 “形式 参数 "， 这 些 是 未 绑 定 的 局 部 变量 。 
调用 函数 时 ， 传 入 的 实 参 (“实际 参数 ”) 会 绑 定 给 这 些 变量 。 在 本 书 中 ， 我 
尽量 使 用 实 参 指 代 传 给 函数 的 实际 参数 ， 使 用 形 参 指 代 声 明 画 数 时 使 用 的 形 
式 参 数 。 然 而 ， 并 不 一 定 会 始终 这 样 做 ， 因 为 Python 文档 和 API 经 党 混用 
形 参 和 实 参 。 人 参见 实 参 词 条 。 


虚拟 子 类 (virtual subclass) 

不 继承 日 超 类 ， 而 是 使 用 
TheSuperClass.register(TheSubClass) 注册 的 类 。 参 见 
abc .ABCMeta. register 方法 的 文档 。 


序列 (sequence) 


泛 指 长 度 〈 例 如 ，len(s)) 固定 ， 可 以 使 用 从 零 开 始 的 整数 索引 ( 例 
如 s[9]) 获取 元 素 的 数据 结构 。Python 出 现 伊始 ， 序 列 这 个 词 就 存在 了 ， 
不 过 直到 Python 2.6 才 由 collections.abc.Sequence 确定 为 一 个 抽象 


序列 化 (serialization) 

把 对 象 在 内 存 中 的 结构 转换 成 便于 存储 或 传输 的 二 进 制 或 文本 格式 ， 而 
且 以 后 可 以 在 同一 个 系统 或 不 同 的 系统 中 重建 对 象 的 副本 。pickle 模块 能 
把 任何 Python 对 象 序 列 化 成 二 进 制 格 式 。 
AS28722 (duck typing) 

多 态 的 一 种 形式 ， 在 这 种 形式 中 ， 不 管 对 象 属于 哪个 类 ， 也 不 管 声明 的 
只 要 对 象 实 现 了 相应 的 方法 ， 范 数 就 可 以 在 对 象 上 执行 操 
一 等 函数 (first-class function) 


fies PRT SRA (AUBETEIA TTA ONE, Mae, F 
~ 以 及 作为 另 一 个 函数 的 返回 值 ) ° Python 中 的 函数 都 是 一 等 函 


引用 计数 (refcount) 


内 部 对 各 个 对 象 的 引用 计数 ， 用 于 确定 垃圾 回收 程序 何 时 销毁 
WE o 


用 户 定 义 的 (user-defined) 

在 Python 文档 中 ， 用 户 这 个 词 几 乎 都 是 指 我 和 你 ， 即 使 用 Python 语言 
的 程序 员 。 用 户 与 实现 Python 解释 器 的 开发 者 是 相对 的 。 因 此 , “用户 定义 
的 类 ”表示 使 用 Python 编写 的 类 ， 而 不 是 使 用 C 语言 编写 的 内 置 类 ， 如 


str ° 
预 激 prime， 动 词 ) 


在 协 程 上 调用 next(coro)， 让 协 程 品 前 运行 到 第 一 个 yield 表达 
式 ， 准 备 好 从 后 续 的 coro.send(value) 调用 中 接收 值 。 


元 编程 (metaprogramming) 


编写 的 程序 使 用 程序 的 运行 时 信息 改变 程序 的 行为 。 例 如 ，ORM 可 能 
会 内 省 模型 类 的 声明 ， 确 定 如 何 验证 数据 库 记 录 里 的 字段 ， 以 及 如 何 把 数据 
库 类 型 转换 成 Python 类 型 。 


元 类 (metaclass) 

实例 为 类 的 类 。 默 认 情 况 下 ，Python 中 的 类 是 type 类 的 实例 ， 例 如 ， 
type(int) 得 到 的 结果 是 type 类 ， 因 此 type 是 元 类 。 用 户 可 以 通过 扩 
展 type 类 定义 元 类 。 

元 组 拆 包 (tuple unpacking) 

把 可 迭代 对 象 中 的 元 素 赋值 给 多 个 变量 (Ala, first, second, 
third == my_list) 。Python 高 手 通 常 使 用 这 个 术语 ， 不 过 也 有 人 使 用 
可 迭代 对 象 的 拆 包 。 

真 值 (truthy) 


只 要 boo1(x) 返回 True，x 就 是 真 值 。 需 要 布尔 值 时 ，Python 会 隐 式 
bool 计算 对 象 ， 例 如 控制 if 和 while 循环 的 表达 式 。 与 此 相对 的 是 


Wl 


指示 对 象 (referent) 
引用 的 目标 对 象 。 谈 及 弱 引 用 时 最 党 使 用 这 个 术语 。 
装饰 器 (decorator) 


一 个 可 调用 的 对 象 A， 返 回 另 一 个 可 调用 的 对 象 B， 在 可 调用 的 对 象 C 
的 定义 体 之 前 使 用 句法 @A 调用 。Python 解释 器 读 取 这 样 的 代码 时 ， 会 调用 
A(C)， 把 返回 的 B 绑 定 给 之 前 赋予 C 的 变量 ， 也 就 是 把 C 的 定义 体 换 成 
B。 如 果 目 标 可 调用 对 象 C eR, BAA 是 函数 装 唉 器 ; MARC ER, Hh 
L A ERRA ° 


TFA (byte string) 


可 惜 ， 在 Python 3 中 仍然 使 用 这 个 名 称 指 代 bytes 3% bytearray ° 4 
Python 2 F, str 类 型 其 实 是 字 贡 字符 串 ， 为 了 把 str M unicode 字符 串 
区 分 开 ， 才 用 了 这 个 名 称 。 在 Python 3 中 没 理由 继续 使 用 这 个 术语 了 ， 泛 指 
字 节 序列 时 ， 我 都 尽量 使 用 字 节 序列 (byte sequence) 这 个 术语 。 


作者 简介 


Luciano Ramalho 在 1995 年 Netscape 站 次 公开 募股 以 前 就 是 一 名 Web 开发 
者 了 ， 他 先后 用 过 Perl 和 Java, 1998 年 开始 使 用 Python。 自 那 以 后 ， 他 在 
巴西 的 几 个 新 闻 门 户 网 站 工作 ， 使 用 Python 做 开发 ， 还 为 巴西 的 媒体 、 银 行 
和 政府 部 门 做 Python Web 开发 培训 。 他 经 常 在 开发 者 大 会 上 演讲 ， 比 如 
PyCon US (2013) 、OSCON (2002、2013 和 2014) ， 还 有 多 年 在 
PythonBrasil (在 巴西 举办 的 PyCon) 以 及 FISL 〈 南 半球 最 大 的 FLOSS 大 

会 ) 上 做 过 的 15 次 演讲 。Ramalho 是 Python 软件 基金 会 的 成 员 ， 还 是 巴西 
第 一 个 众 创 空间 Garoa Hacker Clube 的 联合 创始 人 。 他 也 是 培训 公司 
Python.pro.br 的 共同 所 有 人 。 


关于 封面 


本 书 封 面 的 动物 是 纳 马 沙 蜥 (学 名 : Pedioplanis namaquensis) , {SZH4K, 
有 一 条 呈 红 标 色 的 长 尾巴 。 这 种 沙 蜥 号 体 为 黑色 ， 有 四 条 日 纹 ;， MAER 
E, FAA; 腹部 为 白色 。 

纳 马 沙 晰 白天 活动 ， 是 速度 最 快 的 晰 蝎 之 一 。 它 们 栖息 在 草木 稀 中 的 沙砾 平 
地 ， 冬 季 在 灌木 从 边 挖 的 洞穴 里 休眠 。 纳 马 沙 蜥 分 布 于 纳米 比 亚 全 境 的 干旱 
稀 树 草原 和 半 若 漠 地 区 ， 以 小 昆虫 为 食 。 在 11 H, WESTF 3~5 ME ° 


O'Reilly 出 版 的 图 书 ， 封 面 上 很 多 动物 都 濒临 炙 绝 。 这 些 动 物 都 是 地 球 的 至 
宝 。 如 果 你 想 知道 如 何 保护 这 些 动 物 ， 请 访 |9 animals.oreilly.com ° 


封面 图 片 出 目 Wood 的 Natural History, Vol 3 ° 
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如 果 您 对 本 书 内 容 有 疑问 ， 可 发 邮件 至 contact@turingbook.com， 会 有 编辑 或 
作 译 者 协助 答疑 。 也 可 访问 图 灵 社 区 ， 参 与 本 书 讨 论 。 
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ebook@turingbook.com ° 
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